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理解 的 模式 的 非 平凡 过 程 。 随 着 语义 Web 的 发 展 ,基于 知识 库 的 知识 发 现 
成 为 知识 发 现 领域 的 一 个 研究 目标 。 语 义 Web 下 经 过 XML 标注 的 自然 语 
言 文本 、 资 源 描述 框架 RDF 和 本 体 建 模 为 知识 发 现 提供 了 有 力 工 具 , 数 据 
资源 的 描述 和 存储 、 索 引 , 实 现 语义 检索 的 知识 推理 ,都 是 语义 Web 下 基于 
知识 库 的 知识 发 现 的 关键 技术 支撑 。 

专著 全 面 而 又 系统 地 介绍 了 XML 文档 分 类 技术 、RDF 知识 资源 描述 
语言 和 本 体 推理 等 知识 发 现 的 方法 和 技术 ,反映 了 当前 本 体 建 模 与 知识 发 
现 研究 的 最 新 成 果 和 进展 。 全 书 共 分 9 章 。 第 1 章 是 引言 绪论 ,概述 语义 
络 中 智能 检索 的 关键 技术 和 基于 知识 库 的 知识 发 现 的 重要 概念 ; 第 2、3 
讨论 XML 数据 库 的 存储 策略 ,重点 论述 基于 关系 存储 策略 的 索引 、 维 护 和 
更 新 技术 ,第 4 章 论 述 XML 网 页 的 频繁 模式 挖掘 和 分 类 技术 ; 第 5 章 介绍 
一 种 基于 N 层 向 量 空 间 模型 的 全 文 检索 方法 ; 第 6 章 系统 阐述 知识 表示 和 
本 体 建 模 技 术 ; 第 7 章 综 述 数 据 资源 的 描述 和 关联 数据 发 布 , 曾 述 基于 关联 
数据 的 知识 发 现 模型 ; 第 8 章 讨论 本 体 推 理 技术 及 粗 逻 辑 在 本 体 推 理 中 的 
应 用 ; 第 9 章 论 述 基 于 本 体 知识 库 的 知识 发 现 框架 和 关键 技术 ,给 出 基于 知 
识 发 现 的 案例 推理 应 用 模型 。 

书 中 内 容 新 颖 ,高 度 总 结 和 梳理 了 作者 多 年 的 科研 成 果 , 取 材 国内 外 最 
新 资料 ,反映 了 当前 该 领域 的 研究 水 平 。 论 述 力求 概念 清晰 ,表达 准确 , 算 
法 丰富 ,突出 理论 联系 实际 ,富有 启发 性 。 

为 了 丰富 专著 的 内 容 , 书 中 引用 了 参考 文献 中 的 学 术 资 料 , 对 这 些 研究 
成 果 和 做 出 辛勤 劳动 的 作者 表示 真诚 感谢 ; 专著 出 版 得 到 了 国家 自然 科学 
基金 ,河北 省 重点 学 科 、 华 北 理工 大 学 以 及 清华 大 学 出 版 社 的 大 力 支 持 , 华 
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北 理工 大 学 理学 院 应 用 数学 专业 研究 生 王 会 芳 、 张 奉 等 同学 在 本 书 的 编写 
和 校 稿 过 程 中 做 了 一 定 工作 ,在 此 一 并 表示 诚挚 的 谢意 。 

因为 时 间 仓 促 ,加 上 作者 的 学 识 浅 陋 , 书 中 的 不 足 与 错误 , 敬 请 同行 给 
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第 1 章 基于 语义 Web 的 智能 检索 
和 知识 发 现 


Web 技术 的 出 现 使 人 类 的 生存 空间 得 到 极 大 扩展 ,并 逐渐 成 为 人 们 获 
取 、 传 播 和 交换 信息 的 重要 途径 。 随 着 Internet 的 飞速 发 展 和 广泛 应 用 ,其 
缺陷 也 逐渐 暴露 出 来 ,如 搜索 引擎 智能 程度 低 ,搜索 出 来 的 结果 往往 不 是 用 
户 真正 需要 的 ,检索 结果 是 单一 的 网 页 等 等 。 互 联网 的 创始 人 Tim Berners- 
Lee 于 2000 年 12 月 18 日 在 XML2000 会 议 上 正式 提出 语义 Web(Semantic 
Web)。 语 义 Web 的 目标 是 使 Web 上 的 信息 具有 计算 机 可 理解 的 语义 , 满 
足 智 能 软件 代理 对 万 维 网 上 异 构 和 分 布 式 信息 的 有 效 访问 和 搜索 。 语 义 
Web 不 是 另外 一 个 Web, 它 是 现 有 Web 的 延伸 ,其 中 信息 被 赋予 了 良 定 
XU, HX Web 将 在 更 加 微小 的 信息 之 间 建 立 直 接 的 连接 ,例如 一 条 街道 
的 地 址 与 一 份 地 图 等 ,用 户 可 以 将 两 个 毫 不 相干 的 东西 连接 在 一 起 ,比如 说 
银行 报账 单 和 日 历 。 用 户 可 以 将 银行 报账 单 拖 到 日 历 上 ,也 可 以 将 日 历 拖 
到 银行 报账 单 上 ,这 样 就 可 以 知道 何 时 进行 支付 。 语 义 Web 将 呈现 给 人 们 
一 个 所 有 数据 “无 缝 ? 式 连 接 的 网 络 。 在 语义 Web 技术 破土 而 出 之 后 ,人 们 
对 Facebook 和 MySpace 等 社交 网 站 的 “痴迷 ” 终 将 被 “无 所 不 连 ” 的 网 络 所 
取代 。 


1.1 语义 Web 下 的 信息 检索 


语义 网 的 实现 需要 3 大 关键 技术 支持 : XML、RDF 和 Ontology。Tim 
Berners-Lee 提出 的 语义 网 层次 结构 中 如 图 1-1 所 示 。 
1) Unicode 和 URI 层 : Unicode 和 URI 层 是 整个 语义 万 维 网 的 基础 ， 
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图 1-1 语义 Web 的 层次 模型 


其 中 Unicode( 统 一 资源 编码 ) 处 理 资 源 的 编码 ,保证 使 用 的 是 国际 通用 字符 
集 , 实 现 网 上 信息 的 统一 编码 。URI 是 URL Universal Resource Locator) 
的 超 集 ,URI 支持 语义 网 上 的 对 象 和 资源 的 精细 标识 ,从 而 使 精确 信息 检索 
成 为 可 能 。 这 一 层 是 语义 万 维 网 的 基石 。 

2) XML 十 Name Space 十 XML Schema 层 

XML 和 命名 空间 层 用 于 表示 数据 的 内 容 和 结构 ,XML 层 具 有 命名 空 
间 (Name Space) fll XML 模式 (XML Schema) 定 义 ,通过 XML 标记 语言 可 
以 将 网 上 资源 信息 的 结构 .内容 与 数据 的 表现 形式 进行 分 离 。 

3) RDF 十 RDF Schema 层 

RDF 和 RDFS 层 用 于 描述 万 维 网 上 的 资源 及 其 类 型 ,为 网 上 资源 描述 
提供 通用 框架 和 实现 数据 集成 的 元 数据 解决 方案 。 

4) 本 体 层 

本 体 层 用 于 描述 各 种 资源 之 间 的 联系 ,采用 OWL 表示 。 本 体 (Ontology) 
揭示 了 资源 以 及 资源 之 间 复 杂 和 丰富 的 语义 信息 ,将 信息 结构 和 内 容 分 离 ， 
对 信息 做 完全 形式 化 的 描述 ,使 Web 信息 具有 计算 机 可 理解 的 语义 。 

D 逻辑 层 

逻辑 层 主 要 用 于 提供 公理 和 推理 规则 ,为 智能 推理 提供 基础 。 逻 辑 层 
可 以 进一步 增强 本 体 语言 的 表达 能 力 . 并 允许 创作 特定 领域 和 应 用 的 描述 
性 知识 。 
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6) 证 明 层 

证 明 层 设计 实际 的 演绎 过 程 以 及 利用 Web 语言 表示 证 据 , 对 证 据 进行 
验证 等 。 证 明 注 重 提供 认证 机 制 , 证 明 层 执行 逻辑 层 的 规则 ,并 结合 信任 层 
的 应 用 机 制 来 评判 是 否 能 够 信任 给 定 的 证 明 。 

7) 信任 层 

信任 层 提 供 信 任 机 制 , 保 证 用 户 Agent 在 Web 上 提供 个 性 化 服务 ,以 
及 彼此 之 间 安 全 可 靠 的 交互 ,基于 可 信 Agent 和 其 他 认证 机 构 , 通 过 使 用 
数字 签名 和 其 他 知识 才能 构建 信任 层 。 当 Agent 的 操作 时 安全 的 ,而 且 用 
户 信任 Agent 的 操作 及 其 提供 的 服务 时 ,语义 Web 才能 充分 发 挥 其 价值 。 

在 Tim Berners-Lee 的 语义 网 模型 中 ,作为 语法 层 的 XML 层 , 作 为 数据 
层 的 RDF 层 和 作为 语义 层 的 Ontology 层 是 语义 Web 的 关键 层 。 用 于 Web 
信息 的 语义 ,也 是 现在 语义 Web 研究 的 热点 所 在 。 

语义 Web 下 的 信息 检索 ,不 再 是 一 味 的 基于 关键 词 的 匹配 ,而 是 基于 知 
识 体系 或 概念 网 络 的 智能 检索 , 即 语义 检索 。 比 如 用 户 查询 “计算 机 ”, 与 
“电脑 ”相关 的 信息 也 能 检索 出 来 ,甚至 可 以 进一步 缩小 查询 范围 至 “微机 ”、 
“服务 器 "或 扩大 查询 至 “信息 技术 ”或 查询 相关 的 “电子 技术 ”“ 软 件 ”"“ 计 
算 机 应 用 ”等 范畴 。 另 外 ,智能 检索 还 包括 歧义 信息 和 检索 处 理 ,如 “苹果 ”， 
究 竞 是 指 水 果 还 是 电脑 品牌 ,“ 华 人 ”与 “中 华人 民 共 和 国 ” 的 区 分 ,将 通过 歧 
义 知识 描述 库 全文 索 引 、 用 户 检 索 上 下 文 分 析 以 及 用 户 相 关 性 反馈 等 技术 
结合 处 理 ,高 效 、 准 确 地 反馈 给 用 户 最 需要 的 信息 。 

在 信息 检索 分 布 化 和 网 络 化 的 趋势 下 ,信息 检索 系统 的 开放 性 和 集成 
性 要 求 越 来 越 高 ,需要 能 够 检索 和 整合 不 同 来 源 和 结构 的 信息 ,这 是 异 构 信 
息 检索 技术 发 展 的 基点 ,包括 支持 各 种 格式 化 文件 ,如 TEXT, HTML, 
XML、RTF、MS Office, PDF, PS2/PS, MARC, ISO 2709 等 处 理 和 检索 ; 支 
持 多 语种 信息 的 检索 ; 支持 结构 化 数据 、 半 结构 化 数据 及 非 结 构 化 数据 的 统 
一 处 理 和 关系 数据 库 检 索 的 无 缝 集成 以 及 其 他 开放 检索 接口 的 集成 等 。 所 
谓 “ 全 息 检 索 ” 的 概念 就 是 支持 一 切 格式 和 方式 的 检索 ,从 实践 来 讲 , 发 展 到 
异 构 信 息 整 合 检索 的 层面 ,基于 自然 语言 理解 的 人 机 交互 以 及 多 媒体 信息 
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检索 整合 等 方面 尚 有 待 进一步 突破 。 

智能 信息 检索 系统 应 具有 如 下 的 功能 : 

(1) 能 理解 自然 语言 ,允许 用 自然 语言 提出 各 种 询问 ; 

(2) 具有 推理 能 力 ,能 根据 存储 的 事实 ,演绎 出 所 需 的 答案 ; 

G) 系统 具有 一 定常 识 性 知识 ,以 补充 学 科 范 围 的 专业 知识 。 系 统 根据 
这 些 常识 ,能 演绎 出 更 泛 化 的 一 些 答案 来 。 

语义 Web 为 实现 用 户 语义 的 智能 检索 提供 技术 平台 和 技术 支撑 。 


1.2 知识 和 知识 发 现 


知识 外 这 一 概念 有 三 种 比较 有 代表 性 的 定义 : 

(1) Feigenbaum; 知识 是 经 过 消减 ,塑造 ,解释 、 选 择 和 转换 的 消息 ; 

(2) Bernstein; 知识 是 由 特定 领域 的 描述 、 关 系 和 过 程 组 成 ; 

(3) Heyes-Roth: 知识 = 事实 十 信念 十 启发 式 。 知 识 常 常 是 模糊 ,不 确 
定 或 不 完全 的 ,而 且 知 识 还 处 在 不 断 地 动态 变化 过 程 中 。 


1.2.1 知识 描述 


通常 采用 Heyes-Roth 提出 的 知识 的 三 维 空间 来 描述 任何 知识 , 即 知识 
的 范围 ,知识 的 目的 和 知识 的 有 效 性 。 范 围 由 具体 到 一 般 ,目的 从 说 明 到 指 
定 , 有 效 性 由 确定 到 不 确定 。 知 识 的 三 维 空间 描述 如 图 1-2 所 示 。 


范围 


有 效 性 不 确定 
1-2 知识 的 三 维 空间 描述 
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大 量 的 数据 经 过 加 工 后 才 会 有 价值 ,经 过 分 析 处 理 的 数据 形成 了 信息 ， 
信息 的 作用 后 有 时 间 和 范围 的 限制 。 为 了 使 
信息 在 较 长 的 时 间 内 有 效 ,必须 进行 一 系列 的 
内 部 处 理 , 这 个 过 程 叫 综合 ,综合 后 的 信息 组 S RN 
成 了 知识 

从 计算 机 科学 的 观点 来 看 ,知识 是 信息 综 数据 
合 处 理 的 结果 。 在 综合 过 程 中 ,信息 传递 相互 ”图 1.3 数据 .信息 和 知识 的 
比较 ,结合 成 有 意义 的 链接 。 数 据 、 信 息 和 知 层次 关系 
识 具有 层次 关系 ,它们 的 层次 关系 如 图 1-3 
所 示 。 


1.2.2 领域 知识 和 知识 


领域 知识 主要 应 用 在 基于 知识 的 专家 系统 和 自然 语言 理解 以 及 有 关 概 
念 的 约束 的 集合 。 知 识 工 程 对 领域 知识 进行 了 三 方面 的 描述 : 

(1) 领域 知识 是 一 个 概念 模型 ,这 个 概念 模型 包括 概念 和 概念 之 间 的 
关系 

(2) 领域 知识 是 概念 和 概念 之 间 的 约束 ; 

(3) 领域 知识 是 陈述 如 何 推导 计算 出 新 概念 和 新 概念 之 间 的 关系 的 
规则 。 

领域 知识 的 两 个 基本 概念 

(1) 领域 特征 概念 : 这 是 领域 知识 的 概念 化 ,是 各 种 相关 领域 内 的 重要 
概念 的 语义 描述 ; 

(2) 领域 特征 属性 : 这 是 指 某 一 领域 内 的 概念 所 具有 的 特点 ,领域 特征 
概念 可 以 是 词 ,也 可 以 根据 需要 扩展 成 短语 甚至 词 串 。 

知识 库 是 针对 某 一 领域 问题 求解 的 需要 ,采用 某 种 知识 表示 方式 在 计 
算 机 存储 器 中 存储 组织、 管理 和 使 用 的 互相 联系 的 知识 的 集合 。 

领域 知识 是 指 在 某 一 专门 领域 中 重要 问题 或 概念 以 及 概念 之 间 的 相互 
关系 的 集合 。 领 域 知识 库 这 一 术语 源 于 人 工 智 能 领域 。 在 人 工 智 能 领域 
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中 ,领域 知识 主要 应 用 于 知识 的 专家 系统 和 自然 语言 理解 的 系统 。 
1.2.3 基于 知识 库 的 知识 发 现 


随 着 网 络 技术 和 通信 技术 的 发 展 ,数据 .信息 的 产生 和 收集 能 力 已 经 迅 
速 提高 。 而 更 能 为 人 们 提供 帮助 的 ,潜在 这 些 数据 中 的 信息 和 知识 却 相 对 
缺乏 。 这 种 数据 爆炸 而 知识 缺乏 的 情况 激 起 人 们 对 新 技术 和 自动 工具 的 需 
求 , 数 据 挖掘 技术 就 是 新 技术 之 一 。 如 何 从 长 期 积累 的 .大 量 的 信息 中 找到 
对 我 们 有 用 的 知识 已 成 为 一 个 亟待 解决 的 问题 ,于 是 知识 发 现 应 运 而 生 。 
多 研究 者 从 不 同 的 角度 给 出 了 有 关 知 识 发 现 的 定义 ,目前 较 一 致 认同 的 描 
述 性 定义 是 Fayyad 等 人 给 出 的 : 知识 发 现 是 从 数据 集中 识别 出 有 效 的 、 新 
颖 的 、 潜 在 有 用 的 以 及 最 终 可 理解 的 模式 的 非 平凡 过 程 。 

传统 的 知识 发 现 是 指 基 于 数据 库 的 知识 发 现 (KDD: Knowledge 
Discovery in Databases) ,是 从 大 量 的 .不 完整 的 .有 噪声 的 ,模糊 的 和 随机 的 
数据 中 ,提取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 ,但 又 是 可 信 的 、 潜 在 的 和 有 
价值 的 信息 和 知识 的 过 程 。 知 识 发 现 将 信息 变 为 知识 ,从 数据 矿山 中 找到 
蕴藏 的 知识 金 块 ,将 为 知识 创新 和 知识 经 济 的 发 展 做 出 贡献 。 

知识 发 现 与 数据 挖掘 的 关系 密 不 可 分 。 数 据 挖掘 (Data Mining) ,就 是 
从 海量 的 数据 中 抽取 出 隐 含 的 ,未知 的 .具有 潜在 使 用 价值 信息 的 过 程 "*]。 
由 于 数据 挖掘 是 KDD 过 程 中 最 为 关键 步骤 ,在 实际 应 用 中 两 个 概念 往往 不 
加 以 区 分 。 一 般 认 为 广义 的 数据 挖掘 又 称 数 据 库 中 的 知识 发 现 ,简称 知识 
发 现 (KDD); 狭义 的 数据 挖掘 是 一 个 利用 各 种 分 析 工 具 在 海量 数据 中 发 现 
模型 和 数据 关系 之 间 关 系 的 过 程 , 是 知识 发 现 过 程 的 一 个 步骤 ,一 个 完整 的 
知识 发 现 过 程 如 图 1-4 所 示 。 从 图 中 可 见 ,数据 挖掘 是 知识 发 现 过 程 中 一 个 
发 现 模式 的 子 过 程 ,并 且 是 最 核心 的 过 程 。 

完成 从 大 型 源 数据 中 发 现 有 价值 知识 的 过 程 可 以 简单 概括 为 : 

首先 从 数据 源 中 抽取 出 感 兴趣 的 数据 ,并 把 它 组 织 成 适合 挖掘 的 数据 
组 织 形 式 ; 然后 调用 相应 的 算法 生成 所 需要 的 知识 ; 最 后 对 生成 的 知识 模 
式 进行 评估 ,并 把 有 价值 的 知识 集成 到 企业 的 智能 系统 中 。 
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图 1-4 知识 发 现 过 程 

作为 一 个 KDD 的 工程 而 言 ,KDD 通常 包含 一 系列 复杂 的 挖掘 步 又 。 
Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996 年 合作 发 布 的 论文 From Data 
Mining to knowledge discovery 中 总 结 出 了 KDD 包含 的 5 个 最 基本 步骤 

(1) selection: 在 第 一 个 步骤 中 我 们 首先 要 知道 什么 样 的 数据 可 以 应 用 
于 我 们 的 KDD THH; 

(2) pre-processing: 当 采 集 到 数据 后 ,下 一 步 必须 要 做 的 事情 是 对 数据 
进行 预 处 理 , 尽 量 消除 数据 中 存在 的 错误 以 及 缺失 信息 ; 

(3) transformation; 转换 数据 为 数据 挖掘 工具 所 需 的 格式 。 这 一 步 可 
以 使 得 结果 更 加 理想 化 ; 

(4) data mining: 应 用 数据 控 掘 工具 ; 

(5) interpretation/evaluation; 了 解 以 及 评估 数据 控 掘 结果。 

传统 的 基于 数据 库 的 知识 发 现 技术 已 经 发 展 的 比较 成 熟 了 ,但 在 数据 


8 本 体 建 模 与 语义 Web 知识 发 现 


向 数据 库 进行 存储 的 时 候 , 并 没有 考虑 到 数据 之 间 的 语义 信息 ,这 就 为 知识 
发 现 带 来 了 困难 ,在 知识 发 现 过 程 中 不 利于 语义 相关 知识 的 发 现 。 在 所 得 
到 的 大 量 信息 中 ,包括 有 结构 化 的 数据 , 半 结 构 化 的 数据 (文本 信息 等 ) 和 非 
结构 化 数据 (图 形 .图像 . 视 频 、. 音 频 信息 等 )。 而 KDD 技术 只 处 理 其 中 以 结 
构 化 的 数据 类 型 。 与 变化 不 定 的 数据 比较 ,知识 是 相对 稳定 的 .是 从 较 高 的 
层次 看 数据 .是 数据 的 抽象 表示 ,其 表达 的 内 涵 要 远 远 大 于 数据 信息 。 因 
此 ,研究 知识 中 内 在 的 联系 ,将 成 为 知识 发 现 领域 下 一 步 的 研究 目标 。 于 是 
基于 知识 库 的 知识 发 现 应 运 而 生 。 

在 知识 库 建 立 过 程 中 ,引入 本 体 概 念 , 充 分 挖掘 文档 的 语义 信息 ,并 以 
统一 的 格式 描述 知识 即 形成 知识 项 存储 于 知识 库 中 ,为 用 户 进行 知识 发 现 
提供 一 种 新 的 数据 存储 方式 。 以 此 为 基础 构建 的 知识 发 现 系 统 , 通 过 友好 
的 用 户 界面 为 用 户 提供 个 性 化 知识 发 现 服务 ,系统 通过 对 用 户 的 问题 进行 
语义 解析 、 推 理 机 的 推理 以 及 语义 映射 等 ,从 知识 库 中 检索 出 用 户 满意 的 

可 见 , 基 于 知识 库 的 知识 发 现 的 关键 技术 是 本 体 建 模 、 数 据 集成 .语义 
解析 和 推理 ,而 语义 Web 下 的 资源 描述 技术 XML, RDF 和 本 体 推理 技术 为 
知识 发 现 提供 了 有 力 工 具 。 


1.3 XML 数据 模式 及 应 用 


为 了 更 好 适应 Web 数据 表示 和 交换 的 需要 ,国际 标准 化 组 织 
(International Standards Organization. ISO) F 1986 年 发 布 了 《标准 通用 标 
记 语 言 )(Standard Generalized Markup Language. SGML) 中 。 由 于 SGML 
过 于 繁琐 ,几乎 没有 应 用 能 够 支持 这 个 标准 ,从 而 促使 了 HTML (Hyper 
Text Markup Language) 的 出 现 。HTML 是 为 方便 文档 页 面 读 者 而 设计 
的 ,其 简单 性 极 大 地 促进 了 Web 的 发 展 ,使 Web 成 为 互联 网 上 增长 最 快 的 

随 着 互联 网 上 信息 量 的 进一步 增长 ,各 种 媒体 数据 更 广泛 的 应 用 ， 
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HTML 的 局 限 性 也 逐渐 体现 出 来 。 近 年 来 ,电子 商务 .数字 图 书馆 、 远 程 教 
育 等 全 新 领域 迅猛 发 展 并 逐渐 成 为 互联 网 世界 必 不 可 少 的 组 成 部 分 , Web 
文件 的 复杂 化 、 多 样 化 ,高 容量 高 效率 成 为 网 络 信息 传输 和 处 理 技术 发 展 
追求 的 主要 目标 。 与 此 同时 ,还 有 另 一 种 需求 变 得 愈 发 广泛 而 迫切 , 那 便 是 
同样 的 数据 能 否 根据 不 同 用 户 不 同 需求 而 以 不 同 的 效果 形式 表达 出 来 。 
虽然 人 们 已 付出 很 多 努力 ,包括 各 式 各 样 的 修改 扩充 ,如 增加 表格 .框架 、 脚 
本 语言 等 ,但 均 未 能 从 根本 上 改变 其 局 限 性 。Web 提供 商 也 发 现 普通 的 
HTML 已 经 无 法 提供 大 规模 应 用 所 需要 的 扩展 性 、 结 构 性 和 数据 检索 功能 。 
因此 ,他 们 每 年 都 要 对 标准 HTML 定义 的 标签 进行 扩展 以 满足 不 断 增长 的 
Web 需要 ,而 不 同 Web 厂商 扩展 的 HTML 经 常 互 不 兼容 ,造成 一 定 的 
混乱 。 

由 于 Web 信息 通过 HTML 进行 数据 的 表示 和 交换 ,管理 Web 信息 的 
应 用 程序 需要 包含 一 个 可 以 从 HTML 页 面 抽取 信息 结构 与 内 容 的 “信息 源 
包装 程序 ”一 一 Wrapper。 这 些 包装 程序 非常 脆弱 , 既 要 考虑 不 同 Web 厂商 
扩展 的 HTML 特性 ,又 要 考虑 应 用 的 特性 (如 数据 语义 ); 并 且 其 数据 查询 
功能 也 十 分 脆弱 。HTML 文档 缺乏 结构 信息 ,一般 的 查询 方法 都 是 来 自信 
息 检 索 领域 ,只 能 提供 基于 关键 字 的 查询 ,并 且 查 询 的 结果 通 以 整个 文档 为 
单位 ,从 而 造成 网 络 带 宽 的 浪费 。 

为 解决 HTML 可 扩展 性 差 和 SGML 过 于 繁琐 的 缺陷 , W3C (World 
Wide Web Consortium) 组 织 于 1998 年 2 月 发 布 了 XML 标准 。XML 不 仅 
在 使 用 中 得 到 各 方 肯 定 , 而 且 在 短 短 几 年 内 迅速 崛起 ,并 得 到 Microsoft, 
IBM 等 各 大 公司 的 全 力 支持 ,成 为 一 股 不 可 遏 抑 的 席卷 全 球 的 浪潮 。 该 语 
TD XR UU. "XML 是 SGML 的 子 集 , 其 目标 是 允许 普通 的 SGML 在 
Web 上 以 目前 HTML( HyperText Markup Language) 的 方式 被 服务 .接受 
和 处 理 。XML 被 设计 成 易于 实现 , 且 可 在 SGML 和 HTML 之 间 互 操作 ”。 


1.3.1 XML 语言 特点 


XML 是 一 种 元 标记 语言 ,根据 需求 用 户 可 以 定义 自己 的 标记 ,相对 于 
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HTML 而 言 , 具 有 以 下 优点 : 

(OD 自 描述 性 

XML 文档 通常 包含 一 个 文档 类 型 声明 ,因而 XML 文档 是 自 描述 的 。 
WALA fi EE XML 文档 ,计算 机 也 能 处 理 。XML 表示 数据 的 方式 真正 做 
到 了 独立 于 应 用 系统 ,并 且 数 据 能 够 重用 。XML 文档 被 看 作 是 文档 的 数据 
库 化 和 数据 的 文档 化 。 

(2) 先进 特性 

XML 继承 了 SGML 的 许多 特性 ,首先 是 可 扩展 性 。XML 允许 使 用 者 
创建 和 使 用 他 们 自己 的 标记 ,而 不 是 仅仅 使 用 HTML 的 有 限 词汇 表 。 这 一 
点 至 关 重要 ,企业 可 以 用 XML 为 电子 商务 和 供应 链 集成 等 应 用 定义 自己 的 
标记 语言 ,甚至 特定 行业 的 众多 企业 可 以 一 起 来 定义 该 领域 的 特殊 标记 语 
言 ,作为 该 领域 信息 共享 与 数据 交换 的 基础 ,XML 是 源 文 档 的 最 佳 格 式 , 便 
于 信息 交换 。 

(3) 灵活 性 

HTML 很 难 进一步 发 展 ,就 是 因为 它 是 格式 、 超 文本 和 图 形 用 户 界面 语 
义 的 混合 ,要 同时 发 展 这 些 混 合 在 一 起 的 功能 是 很 困难 的 。 而 XML 提供 了 
一 种 结构 化 的 数据 表示 方式 ,使 得 用 户 界 面 分 离 于 结构 化 数据 。 所 以 , Web 
用 户 所 追求 的 许多 先进 功能 在 XML 环境 下 更 容易 实现 。 

(4) 支持 文档 内 容 验证 

通过 文档 类 型 定义 (Document Type Definition, DTD) 或 XML 模式 
(XML Schema) 方 便 地 验证 文档 的 有 效 性 。 

(5) 支持 高 级 搜索 

在 互联 网 上 如 果 Web 页 是 XML 格式 , 则 搜索 可 以 附加 数据 的 上 下 文 
信息 ,增加 搜索 效率 。 

有 人 认为 XML 是 下 一 代 Web 语言 ,更 或 是 21 世纪 的 “世界 语 ”, 可 见 
XML 的 巨大 潜力 和 广阔 的 应 用 前 景 。 

XML 是 SGML 语言 的 子 集 , 但 不 同 于 SGML.XML 去 除了 SGML 中 
不 便 使 用 的 各 种 特性 。XML 文档 中 的 标记 不 是 标准 定义 的 ,而 是 用 户 根据 
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Web 数据 表示 和 交换 的 需要 自行 定义 的 。 由 于 利用 XML 语言 可 以 创建 具 
体 领 域 的 标记 语言 ,因此 业界 一 致 认为 XML 是 一 种 元 语言 。 同 时 ,XML Sc 
现 了 数据 和 显示 的 分 离 , 使 XML 更 适合 Web 数据 的 表示 和 交换 。 表 1-1 给 
出 了 XML 5 HTML 的 对 比 ,从 中 可 以 发 现 XML 解决 了 HTML 扩展 性 差 
的 问题 。XML 是 一 种 简单 .灵活 的 半 结 构 化 语言 , 它 的 出 现 为 Web 应 用 的 
发 展 勾画 出 美妙 的 前 景 。 


表 1-1 XML 和 HTML 的 对 比 


特点 HTML XML 
扩展 性 不 具 扩 展 性 是 一 种 元 语言 ,可 定义 其 他 标记 语言 
侧重 点 信息 的 表现 形式 信息 的 结构 
语法 要 求 不 要 求 标记 的 典 套 、 配 对 等 ,不 严格 要 求 嵌 套 .配对 ,并 遵循 一 定 的 模 
要 求 标记 之 间 有 一 定 的 顺序 式 信 息 
可 维护 性 | 难以 阅读 ,维护 结构 清晰 ,便于 阅读 ,维护 
数据 显示 | 内 容 描 述 与 显示 方式 合 为 一 体 | 内 容 描述 与 显示 方式 相 分 离 
工具 有 大 量 工具 支持 工具 尚 不 成 熟 


不 同 于 传统 的 、 结 构 化 的 关系 数据 ,XML 数据 是 一 种 全 新 的 半 结 构 化 
数据 ,难以 利用 现 有 的 关系 数据 库 完 成 对 XML 数据 的 有 效 管理 。 因 此 ,很 
多 颇具 影响 的 机 构 和 大 学 开始 研究 如 何 存储 和 管理 Web 上 急剧 膨胀 的 
XML 数据 ,致力 于 XML 数据 访问 性 能 的 提高 。 从 2000 年 至 今 ,大 量 的 研 
究 工 作 致 力 于 提高 路 径 表 达 式 的 查询 处 理 效 率 , 并 取得 了 显著 的 研究 成 果 。 

XML 文档 本 质 上 是 保存 信息 的 结构 化 载体 。 为 了 得 到 有 效 的 XML xc 
件 , 需 要 一 种 用 来 描述 XML 文档 中 信息 结构 的 数据 模型 。 不 仅 要 建立 
XML 文档 中 可 以 使 用 的 XML 词汇 表 ,而 且 要 定义 XML 文档 中 元 素 的 顺序 
和 元 素 的 嵌 套 关系 的 内 容 模 型 ,并 建立 文档 数据 的 数据 类 型 。 

在 XML Schema 之 前 模式 语言 已 经 开发 了 : XDR(OXML data reduced. 
XML 数据 简化 )、DCD (Document Content Description, 文 档 内 容 说 明 )、 
SOX(Simple outline XML ,简单 XML 概要 ) 和 DDML(Document Definition 
Markup Language, 文 档 定义 标记 语言 )。W3C 于 1998 年 开始 制定 XML 
Schema 的 第 一 个 版 本 ,2001 年 5 月 正式 推荐 ,有 望 成 为 主流 的 模式 语言 。 
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1.3.2 XML 模式 的 应 用 


XML 是 一 种 全 新 的 Web 数据 表示 和 交互 标准 , 越 来 越 多 的 Web 数据 
通过 XML 格式 进行 存储 和 交互 。 从 1998 年 出 现 至 今 ,XML 技术 受到 了 业 
界 的 广泛 关注 。Microsoft、IBM、Oracle 等 参加 了 XML 标准 的 制定 ， 
XML1. 05 标 准 一 出 台 , 便 开始 了 相应 技术 和 商品 的 研制 。Microsoft 的 
Office, Windows 都 将 完全 采用 XML 格式 进行 数据 表示 和 交换 ; IE 浏览 器 
更 是 早已 实现 了 对 XML 的 支持 ; IBM, Oracle 等 公司 也 在 各 自 的 商品 中 提 
供 了 对 XML 应 用 的 支持 。 目 前 XML 应 用 比较 成 熟 的 领域 主要 有 : 

(1) 数据 交换 

在 应 用 程序 和 公司 之 间作 数据 交换 ,首选 用 XML, 原 因 是 XML 使 用 元 
素 和 属性 来 描述 数据 。 在 数据 传送 过 程 中 ,XML 始终 保留 了 诸如 父子 关系 
这 样 的 数据 结构 。 几 个 应 用 程序 可 以 共享 和 解析 同一 个 XML 文件 ,不 必 使 
用 传统 的 字符 串 解 析 或 拆 解 过 程 。 相 反 , 普 通 文件 不 对 每 个 数据 段 做 描述 
(除了 在 头 文 件 中 ) ,也 不 保留 数据 关系 结构 。 使 用 XML 做 数据 交换 可 以 使 
应 用 程序 更 具有 弹性 ,因为 可 以 用 位 置 (与 普通 文件 一 样 ) 或 元 素 名 (从 数据 
库 ) 来 存 取 XML 数据 。 

(2) Web 服务 

Web 服务 是 最 令 人 振奋 的 革命 之 一 , 它 让 使 用 不 同系 统 和 不 同 编程 语 
言 的 人 们 能 够 相互 交流 和 分 享 数 据 。 其 基础 在 于 Web 服务 器 可 以 用 XML 
在 系统 之 间 交 换 数据 。 交 换 数 据 通常 用 XML 标记 ,能 使 协议 取得 规范 一 
致 ,比如 在 简单 对 象 处 理 协议 (Simple Object Access Protocol, SOAP) 平 台 
E. SOAP 可 以 在 用 不 同 编程 语言 构造 的 对 象 之 间 传 递 消息 ,这 意味 着 一 个 
C# 对 象 能 够 与 一 个 Java 对 象 进行 通信 。 这 种 通讯 甚至 可 以 发 生 在 运行 于 
不 同 操作 系统 上 的 对 象 之 间 。DCOM CORBA 或 Java RMI 只 能 在 紧密 耦 
合 的 对 象 之 间 传 递 消息 ,SOAP 则 可 在 松 耦 合 对 象 之 间 传 递 消息 。 

(3) 内 容 管 理 

XML 只 用 元 素 和 属性 来 描述 数据 ,而 不 提供 数据 的 显示 方法 。 这 样 ， 
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XML 就 提供 了 一 个 优秀 的 方法 来 标记 独立 于 平台 和 语言 的 内 容 。 使 用 像 
XSLT 这 样 的 语言 能 够 轻易 地 将 XML 文件 转换 成 各 种 格式 文件 ,比如 
HTML,WML,PDF .,flat file, EDI 等 等 。XML 具有 的 能 够 运行 于 不 同系 统 
平台 之 间 和 转换 成 不 同 格式 目标 文件 的 能 力 使 得 它 成 为 内 容 管理 应 用 系统 
中 的 优秀 选择 。 

(4) Web 集成 

现在 越 来 越 多 的 设备 支持 XML ,使 得 Web 开发 商 可 以 在 个 人 电子 助理 
和 浏览 器 之 间 用 XML 来 传递 数据 。 为 什么 将 XML 文本 直接 送 进 这 样 的 设 
备 去 呢 ? 这 样 做 的 目的 是 让 用 户 更 多 地 自己 掌握 数据 显示 方式 ,更 能 体验 
到 实践 的 快乐 。 常 规 的 客户 /服务 (C/S) 方 式 为 了 获得 数据 排序 或 更 换 显示 
格式 ,必须 向 服务 器 发 出 申请 ; 而 XML 则 可 以 直接 处 理 数 据 ,不 必 经 过 向 
服务 器 申请 查询 -返回 结果 这 样 的 双向 “旅程 ”", 同 时 在 设备 也 不 需要 配制 数 
据 库 ,甚至 还 可 以 对 设备 上 的 XML 文件 进行 修改 并 将 结果 返回 给 服务 器 。 
比如 . INI 文件。 虽然 这 样 的 文件 格式 已 经 使 用 多 年 并 一 直 很 好 用 ,但 是 
XML 还 是 以 更 为 优秀 的 方式 为 应 用 程序 标记 配制 数据 。 使 用 . NET 里 的 
类 ,如 XmlDocument 和 XmlTextReader, 将 配制 数据 标记 为 XML 格式 ,能 
使 其 更 具 可 读 性 ,并 能 方便 地 集成 到 应 用 系统 中 去 。 使 用 XML 配置 文件 的 
应 用 程序 能 够 方便 地 处 理 所 需 数据 ,不 用 像 其 他 应 用 那样 要 经 过 重新 编译 
才能 修改 和 维护 应 用 系统 。 


1.4 知识 表示 和 OWL 本 体 语言 


要 使 得 知识 能 够 在 一 定 范围 内 共享 、 使 用 ,就 需要 使 用 一 种 概括 性 强 又 
能 较为 具体 表示 出 知识 之 间 关 系 的 表示 模型 。 知 识 模型 的 研究 一 直 是 知识 
工程 领域 的 一 个 研究 重点 。 知 识 表 示 是 指 把 知识 载体 中 的 知识 因子 和 知识 
关联 表示 出 来 ,以 便 人 们 识别 和 理解 知识 。 知 识 表示 是 知识 组 织 的 基础 , 因 
为 任何 知识 组 织 的 方法 都 必须 建立 在 知识 表示 的 基础 上 。 目 前 ,知识 组 织 
体系 使 用 的 知识 表示 方法 很 多 ,包含 产生 式 规则 、 谓 词 逻 辑 式 、 语 义 网 络 \ 框 
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架 式 表示 法 .本 体 表示 法 等 。 基 于 知识 本 体 的 表示 方法 认为 对 知识 本 体 的 
表示 是 一 种 可 采用 不 同 的 方法 来 刻画 自然 世界 的 人 为 近似 模型 , 它 注重 于 
知识 表示 的 内 容 , 而 不 是 表现 形式 [9 。 

本 体 描 述 语 言 , 也 称 为 标记 语言 . 置 标语 言 、 构 建 语言 或 者 是 表示 ( 标 
示 ) 语 言 , 是 用 特定 的 形式 化 语言 对 本 体 模型 进行 描述 ,使 得 机 器 和 用 户 都 
能 达到 统一 的 理解 。 主 要 包括 : XML,RDF/RDFS,OWL 等 。 如 图 1-5 所 示 。 


OWE DAML-S 
DAML-R 
DAML+OIL 
DAML-Ont OIL 
i DC || PICS 
RDF(S) 
XOL | Topic Maps | SMIL. RDF 
HTML XML+Name Space*XML Schema 
URI 


图 1-5 本 体 语言 描述 * 堆 ” 

XML 描述 结构 化 文档 的 表层 语法 ,对 文档 没有 任何 语义 约束 ; XML 
Schema 定义 XML 文档 的 结构 约束 的 语言 RDF 描述 对 象 (资源 ) 以 及 它们 
之 间 关 系 的 数据 模型 ,为 数据 模型 提供 简单 的 语义 ,这 些 数 据 模 型 能 够 用 
XML 语法 进行 表达 ; RDF Schema 描述 RDF 资源 的 属性 和 类 型 的 词汇 表 ， 
提供 了 对 这 些 属性 和 类 型 的 普遍 层次 的 语义 ; OWL 添加 了 更 多 用 于 描述 属 
性 和 类 型 的 词汇 ,例如 类 型 的 不 相交 性 、 基 数 (Cardinality) 、 等 价 性 ,属性 更 
丰富 的 类 型 .属性 特征 以 及 枚 举 型 (Enumerated Classes) 等 。 

2000 年 XML 会 议 之 后 ,W3C 为 在 网 页 上 标注 语义 ,积极 推进 了 语义 标 
注 语言 的 研发 。2001 年 2 H W3C 正式 推出 Semantic Web Activity, 2004 
4E 2 H dE RAS T RDFS.DAML-ONT,DAML + OIL 等 本 体 描述 语言 的 开 
发 经 验 的 基础 上 ,W3C 将 Web 本 体 语言 OWL 作为 推荐 标准 。OWL 提供 
T 3 种 表达 能 力 递增 的 子 语言 OWL Lite OWL DL 和 OWL Full, 分 别 用 于 
特定 的 用 户 群 体 。OWL Lite 用 于 提供 给 那些 只 需要 一 个 分 类 层次 和 简单 
约束 的 用 户 ,提供 支持 OWL Lite 的 工具 应 该 比 支持 其 他 表达 能 力 更 强 的 
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OWL 子 语言 更 简单 ,并且 从 辞典 CThesauri) 和 分 类 系统 (Taxonomy) 转 换 到 
OWL Lite 更 为 迅速 , 相 比 OWL DL.OWL Lite 还 具有 更 低 的 形式 复杂 度 。 
OWL DL 用 于 支持 强 表达 能 力 的 同时 需要 保持 计算 的 完备 性 (所 有 的 结论 
都 能 够 确保 被 计算 出 来 ) 和 可 判定 性 (所 有 的 计算 都 能 在 有 限 的 时 间 内 完 
成 ) 的 知识 表示 。OWL DL 包括 了 OWL 语言 的 所 有 语言 成 分 ,但 使 用 时 必 
须 符合 一 定 的 约束 。OWL Full 支持 最 强 的 表达 能 力 和 完全 自由 的 RDF 语 
法 的 用 户 ,但 是 OWL Full 没有 可 计算 性 保证 ,同时 ,不 太 可 能 有 推理 软件 能 
支持 对 OWL Full 的 所 有 成 分 的 完全 推理 。OWL Full 可 以 看 成 是 对 RDF 
的 扩展 ,而 OWL Lite 和 OWL DL 可 以 看 成 是 对 一 个 受 限 的 RDF 版 本 的 扩 
展 。 所 有 的 OWL 文档 (Lite、DL、FulD) 都 是 一 个 RDF 文档 ; 所 有 的 RDF X 
档 都 是 一 个 OWL Full 文档 ,但 只 有 一 些 RDF 文档 是 一 个 合法 的 OWL Lite 
和 OWL DL 文档 。 实 际 应 用 中 进行 OWL 子 语言 的 选择 时 ,选择 OWL Lite 
还 是 OWL DL 主要 取决 于 用 户 在 多 大 程度 上 需要 OWL DL 提供 的 表达 能 
力 更 强 的 成 分 。 选 择 OWL DL 还 是 OWL Full 则 主要 取决 于 用 户 在 多 大 程 
度 上 需要 RDF Schema 的 元 建 模 (meta-modeling) 机 制 ( 如 定义 关于 类 的 类 
和 为 类 赋予 属性 等 ) 。 


1.5 XML 为 基于 知识 库 的 知识 发 现 带 来 的 希望 和 挑战 


基于 知识 库 的 知识 发 现 关 键 是 知识 库 的 建立 和 知识 推理 ,知识 库 建 立 
的 过 程 是 从 信息 中 获取 知识 并 以 统一 格式 存储 的 过 程 。 需 要 进行 的 工作 包 
括 领域 本 体 的 建立 文档 的 语义 处 理 和 知识 项 的 建立 。 领 域 本 体 的 建立 主 
要 是 使 用 本 体 构 建 工具 进行 某 一 特定 领域 的 本 体 的 构建 。 文 档 的 语义 处 理 
主要 是 对 文档 进行 分 词 .语义 标 引 等 操作 以 抽取 出 文档 中 的 语义 信息 ,然后 
将 这 些 语义 信息 连同 本 体 与 知识 一 起 存储 进 知识 库 。 

虽然 语义 网 给 我 们 展示 了 万 维 网 的 美好 前 景 以 及 由 此 而 带 来 的 互联 网 
的 革命 ,但 语义 网 的 实现 仍 面临 着 巨大 的 挑战 : 

CD 内 容 的 可 获取 性 , 即 基于 Ontology 而 构建 的 语义 网 网 页 目前 还 
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很 少 ; 

(2) 本 体 的 开发 和 演化 ,包括 用 于 所 有 领域 的 核心 本 体 的 开发 .开发 过 
程 中 的 方法 及 技术 支持 ,本 体 的 演化 及 标注 和 版 本 控制 问题 ; 

(3) 内 容 的 可 扩展 性 , 即 有 了 语义 网 的 内 容 以 后 ,如 何以 可 扩展 的 方式 
来 管理 它 , 包 括 如 何 组 织 、 存 储 和 查找 等 ; 

OD 多 语种 支持 ; 

(5) 本 体 语言 的 标准 化 。 

虽然 与 国外 相 比 我 国 对 语义 网 的 研究 相对 落后 ,但 从 1999 年 至 今 发 表 
的 论文 来 看 ,论文 数量 逐年 递增 。2002 年 发 表 相关 论文 22 篇 ,分 别 是 
2000 年 (6 篇 ) 和 2001 年 (4 篇 ) 年 论文 数量 的 3.7 倍 和 5.5 倍 ,2003 FRK 
论文 38 篇 ,是 2002 年 的 1.7 倍 , 这 说 明 随 着 时 间 的 推移 ,对 语义 网 的 研究 已 
经 引起 了 我 国学 者 的 高 度 重视 ; @ 研 究 内 容 越 来 越 广泛 而 深入 ,大 致 可 分 为 
三 个 层次 : 

第 一 层次 , 即 对 语义 网 及 其 关键 技术 的 描述 与 介绍 ,主要 包括 语义 网 的 
含义 .体系 结 构 .关键 技术 (RDF ,Ontology) ^ ; 

第 二 层次 ,是 关于 语义 网 及 其 关键 技术 对 相关 学 科 或 研究 领域 的 影响 
与 启示 ,包括 信息 管理 .信息 检索 .知识 库 系 统 .数字 图 书馆 .数据 挖掘 .电子 
商务 .机 器 翻译 、 智 能 代理 ,需求 分 析 、 元 数据 描述 与 交换 、 网 络 信息 资源 和 
知识 的 表达 等 ; 

第 三 层次 , 则 是 针对 语义 网 及 其 关键 技术 所 做 的 具体 试验 与 应 用 ,包括 
RDF 的 应 用 与 存储 .基于 RDF/XML 的 搜索 引擎 的 设计 与 实现 .语义 网 的 
试探 性 实现 Ontology 的 构建 ,基于 Ontology 的 查询 系统 设计 、Ontology 在 
图 书 服务 网 络 、 知 识 图 书馆 和 数字 图 书馆 中 的 应 用 、Ontology 与 主题 词 表 相 
结合 实现 对 元 数据 的 查询 等 。 

图 1-1 中 xmlschema 就 是 XML 模式 ,rdfschema (RDF 模式 ) 就 是 “ 资 
源 描述 框架 模式 ”。 其 进一步 的 描述 如 图 1-6 所 示 。 

RDF 和 RDF 模式 中 主要 的 类 别 、 特 性 和 约束 如 下 : 

CD 核心 类 别 : 包括 rdfs: Resources. rdfs: property 和 rdfs:Class。 所 
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rdfs:Resource 


rdfs:subClassOf. rdfs:subClassOf 


rdfs:subClassOf 
rdf:Property 


eg:Agent 


rdfs:subClassOf rdfs:subClassOf. 


eg:author 


rdfs:domain 


rdfs:range 


eg:Person 


Tim Berners-Lee 


eg:author 


dc:title 


http:/.../Proposal/ 


Information Management:A Proposal 


图 1-6 RDF 模式 


有 用 RDF 表达 式 描 述 的 事物 都 被 看 成 是 rdfs: Resources 的 实例 ,rdfs: 
property 用 来 刻画 rdfs:Resources 实例 的 所 有 特性 的 类 别 ,rdfs:Class 用 来 
定义 RDF 模式 中 的 概念 。 

(2) 核心 特性 : 包括 rdf:type,rdfs:subClassOf 和 rdís: subPropertyOf, 
rdf; type 建立 资源 和 类 别 之 间 的 实例 (instance-of) 关 系 模 型 , rdfs: 
subClassOf 建立 类 别 之 间 的 包容 层次 模型 ,rdfs:subPropertyOf 建立 特性 之 
间 的 包容 层次 模型 。 

G) 核心 约束 : 包括 rdfs: ConstraintResources, rdfs: ConstraintProperty， 
rdfs:Range 和 rdfs:domain。rdfs:ConstraintResources 定义 了 所 有 约束 的 
类 别 ,rdfs:ConstraintProperty 是 rdfs:ConstraintResources 和 rdf: Property 
的 子 集 , 它 包括 所 有 用 来 定义 约束 的 特性 。 

因此 ,RDF 和 RDF 模式 是 开放 的 元 数据 框架 , 它 定 义 了 一 种 描述 计算 
机 可 理解 的 数据 语义 的 数据 模型 。 

语义 互联 网 体系 结构 中 的 Ontology Vocabulary 就 是 “本 体 词 汇 ”,Logic 
就 是 “逻辑 ”, 它 使 用 * 描 述 逻辑 标记 语言 ”(Description Logic Markup 
Language) 来 进行 描述 ,Proof 就 是 “验证 ”, Trust 就 是 信任”,“ 验 证 ”和 “ 信 
任 ? 是 网 络 传输 不 可 或 缺 的 重要 因素 ,用 户 与 用 户 之 间 , 用 户 与 网 络 服务 器 
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之 间 要 进行 验证 ,要 保持 诚信 ,必须 要 有 “验证 ”和 “信任 ”, 用 户 与 网 络 服务 
器 之 间 才 可 以 在 网 络 上 传输 信息 。 

语义 互联 网 体系 结构 左 侧 的 Self-desc. doc 是 Self-description document 
的 缩写 ,就 是 “ 自 描 述 文档 ”,Data 是 “数据 ”,Rule 是 “规则 ”。 

特别 值得 注意 的 是 ,在 这 个 语义 互联 网 的 体系 结构 中 “RDF + rdf 模 
式 ”" 的 上 面 是 “本 体 词汇 ”,“ 本 体 词 汇 ” 的 上 面 是 “验证 ”和 “信任 ”, “本体 词 
汇 ” 处 于 语义 互联 网 的 关键 层 , 它 属于 “ 自 描述 文档 ”, 用 于 表示 语义 互联 网 
各 种 信息 的 概念 和 语义 。 由 此 可 见 ,“ 本 体 词汇 ”在 语义 互联 网 的 整个 体系 
结构 中 起 着 承上启下 的 联系 作用 ,处 于 举足轻重 的 地 位 。 

采用 “本 体 词 汇 " 来 描述 语义 互联 网 中 各 种 资源 之 间 的 联系 ,可 以 克服 
目前 万 维 网 上 的 信息 格式 的 异 构 性 .信息 语义 的 多 重 性 以 及 信息 关系 的 荐 
乏 和 非 统 一 性 等 严重 问题 。 

其 实 , 语 义 互联 网 的 体系 结构 中 的 “资源 描述 框架 模式 ”(rdfschema) 就 
可 以 定义 类 别 . 子 类 和 超 类 ,并 且 可 以 定义 特性 和 子 特 性 以 及 对 于 特性 的 约 
束 , 例 如 ,领域 (domain) .范围 (range) 等 等 。 但 是 ,资源 描述 框架 模式 ”对 自 
然 语言 和 特定 应 用 领域 的 词汇 的 描述 能 力 较 弱 , 需 要 根据 自然 语言 词汇 的 
特性 和 特定 领域 的 术语 词汇 进一步 扩展 ,因此 , 蒂 姆 . 伯 讷 斯 - 李 在 “RDF 十 
rdfschema” 上 面 再 加 上 一 个 扩展 层 ,这 样 的 扩展 层 就 是 “本 体 词汇 ”。 

2006 年 5 H , 带 姆 . 伯 讷 斯 - 李 又 宣布 ,经 过 十 年 的 努力 ,W3C 已 发 布 推 
荐 标准 80 余 份 ,语义 互联 网 已 经 具备 了 为 达到 成 功 的 目标 所 需要 的 所 有 标 
准 和 技术 ,包括 作为 数据 语言 的 RDF、 本 体 语 言 . 查 询 和 规则 语言 。2006 年 
4 月 ,万 维 网 联盟 中 国 办 事 处 成 立 并 召开 了 WWW 技术 研讨 会 。 

蒂 姆 。 伯 讷 斯 - 李 在 2006 年 又 公布 了 语义 互联 网 的 新 的 体系 结构 外 ,如 
图 1-7 所 示 。 

在 这 个 新 的 体系 结构 中 , “逻辑 ” 层 变 成 了 “统一 逻辑 ” 层 (Unifying 
Logic) ,不 再 局 限于 使 用 特定 的 “描述 逻辑 标记 语言 ”。 

在 这 个 体系 结构 中 ,Ontology Vocabulary 变 成 了 Ontology OWL, 其 
中 ,OWL(Ontology Web Language) 可 以 翻译 成 “本 体 网 络 语言 ", 是 W3C 


第 1 章 基于 语义 Web 的 智能 检索 和 知识 发 现 19 


User Interface & applications 


Trust 


Proof 
Unifying Logic 
. Ontology: Rules: 
Se OWL RIF a 
RDF-S 
Data interchange:RDF 
XML 
URI Unicode 


图 1-7 语义 Web 的 新 体系 结构 (2006) 


开发 的 一 种 描述 本 体 的 网 络 语言 ,用 于 对 本 体 进行 语义 描述 。W3C 的 设计 
人 员 针 对 各 类 特征 的 需求 制定 了 三 种 相应 的 OWL 的 子 语言 , 即 OWL Lite, 
OWL DL 和 OWL Full, 而 且 各 子 语言 的 表达 能 力 递增 。 

OWL Lite 是 表达 能 力 最 弱 的 子 语言 。 它 是 OWL DL 的 一 个 子 集 ,但 
是 通过 降低 OWL DL 中 的 公理 约束 ,保证 了 迅速 高 效 的 推理 。 它 支持 基数 
约束 ,但 基数 值 只 能 为 0 或 1。 因 为 OWL Lite 表达 能 力 较 弱 ,为 其 开发 支持 
工具 要 比 其 他 两 个 子 语言 容易 一 些 。OWL Lite 用 于 提供 给 那些 仅 需 要 一 
个 分 类 层次 和 简单 约束 的 用 户 。 

OWL DL(Description Logic, 描 述 逻 辑 ) 将 可 判定 推理 能 力 和 较 强 表 
达能 力作 为 首要 目标 ,而 忽略 了 对 RDFS 的 兼容 性 。OWL DL 包括 了 
OWL 语言 的 所 有 语言 成 分 ,但 使 用 时 必须 符合 一 定 的 约束 ,受到 一 定 的 
限制 。OWL DL 提供 了 描述 逻辑 的 推理 功能 ,描述 逻辑 是 OWL 的 形式 
化 基础 。 

OWL Full 包含 OWL 的 全 部 语言 成 分 并 取消 了 OWL DL 中 的 限制 , 它 
将 RDFS 扩展 为 一 个 完备 的 本 体 语言 .支持 那些 不 需要 可 计算 性 保证 (no 
computational guarantees) 但 需要 最 强 表 达能 力 和 完全 自由 的 RDFS 用 户 。 
在 OWL Full 中 ,一 个 类 可 以 看 成 是 个 体 的 集合 ,也 可 以 看 成 是 一 个 个 体 。 
由 于 OWL Full 取消 了 基数 限制 中 对 可 传递 性 质 的 约束 ,因此 不 能 保证 可 判 
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“本 体 网 络 语言 "直接 地 处 于 Unifying Logic( 统 一 逻辑 ) 和 RDF-S( 资 源 
描述 框架 模式 ) 之 间 , 上 承 “ 统 一 逻辑 ", 下 启 * 资 源 描述 框架 模式 ”, 其 承 上 启 
下 的 作用 更 加 明显 。 由 此 可 见 , 在 2006 年 新 公布 的 语义 互联 网 体系 结构 中 ， 
“知识 本 体 ” 的 重要 性 更 加 突出 了 。 

从 2001 年 和 2006 年 的 语义 互联 网 的 两 个 体系 结构 可 以 看 出 ,经 过 
XML 标注 的 自然 语言 文本 是 语义 互联 网 的 基础 , Web 主要 是 由 语言 文字 组 
成 的 (此 外 还 有 语音 .音乐 和 图 像 ) ,经 过 XML 标注 了 句法 .语义 等 信息 之 后 
的 “文本 文档 ”(text file) ,再 经 过 资源 描述 框架 RDF 的 处 理 \ 本 体 知识 处 理 、 
规则 处 理 ,统一 逻辑 处 理 之 后 ,就 成 为 了 “智能 文档 ”(intelligent file) 。 

智能 文档 是 “知道 ”自己 内 容 的 文档 ,其 目的 是 让 自动 化 程序 “知道 可 以 
用 它 来 做 什么 ”。 这 些 自动 化 程序 叫做 “智能 代理 ”(Agent) ,智能 代理 是 实 
现 语义 互联 网 服务 (Semantic Web Service,SWS) 的 重要 构件 。 语义 互联 网 
用 知识 本 体 (ontology) 来 表示 概念 以 及 概念 之 间 的 关系 ,所 以 文档 的 语义 信 
息 标注 实际 上 是 一 种 建立 在 知识 本 体 基 础 之 上 的 标注 。 

这 些 技术 为 语义 Web 下 基于 知识 库 的 知识 发 现 葛 定 了 坚实 的 技术 基 
础 ,也 给 研究 者 提出 了 新 的 挑战 和 机 遇 。 
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众所周知 , 当 大 量 数据 需要 处 理 分 析 时 ,最 好 的 方法 是 把 这 些 数据 放 到 
数据 库 中 ,所 以 几乎 所 有 大 型 的 商业 应 用 系统 都 和 数据 库 相 关联 。XML 本 
身 是 不 是 数据 库 , 从 严格 的 意义 上 来 说 ,XML 仅仅 意味 着 XML 文档 。 因 为 
尽管 一 个 XML 文档 包含 数据 ,但 是 如 果 不 通过 其 他 的 软件 进行 数据 处 理 ， 
它 本 身 只 不 过 是 一 个 文本 文件 。 所 以 XML 本 身 不 能 和 数据 库 挂 上 钓 , 但 是 
加 上 一 些 其 他 的 辅助 工具 ,就 把 整个 XML 看 成 是 一 个 数据 库 系统 ,XML 文 
本 本 身 可 以 看 成 是 数据 库 中 的 数据 区 ,DTD 或 者 Schema 可 以 看 成 是 数据 
库 模 式 ,XQL(XMI Query Language. XML 查询 语言 ) 可 以 看 成 是 数据 库 查 
询 语言 ,SAX(Simple API for XML) 或 DOM(Document Object Model, 文 档 
对 象 模型 ) 可 以 看 成 是 数据 库 处 理工 具 。 当 然 它 还 是 缺少 数据 库 所 必须 的 
一 些 东 西 ,比如 有 效 的 存储 组 织 、 索 引 结构 、 安 全 性 、 事 务 处 理 、 数 据 完整 性 、 
触发 器 、 多 用 户 处 理 机 制 等 等 。 

但 是 为 什么 要 把 XML 和 数据 库 相 联系 呢 ? 举 个 例子 来 说 明 这 个 问题 ， 
比如 有 一 个 电子 商务 的 应 用 程序 需要 使 用 XML 来 进行 数据 传输 ,最 关心 的 
是 数据 本 身 应 该 具有 的 结构 ,并 不 关心 它 在 文档 中 实际 的 存储 结构 。 如 果 

应 用 程序 很 简单 ,基本 的 文件 系统 将 满足 需求 ,但 如 果 应 用 本 身 很 复杂 ,就 
需要 一 个 完整 的 开发 应 用 环境 来 支持 XML。 从 另 一 个 方面 来 说 ,假设 有 一 
个 Web 站 点 , 它 的 内 容 是 由 一 系列 XML 文档 构成 的 ,不 仅 要 管理 这 个 站 
点 ,同时 需要 提供 给 用 户 一 个 搜索 该 站 点 内 容 的 机 制 , 而 这 些 都 需要 借助 数 
据 库 来 实现 。 选 择 一 个 数据 库 的 最 重要 的 因素 是 判断 是 否 需 要 数据 库 来 存 
储 数 据 或 者 是 文档 。 如 果 想 要 存储 数据 ,需要 一 个 关系 数据 库 或 者 是 对 象 
数据 库 来 存储 实际 的 数据 ,同时 需要 中 间 件 在 数据 库 和 XML 文档 之 间 建 立 
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桥梁 关系 。 从 另 一 方面 来 说 ,如 果 想 要 存储 文档 ,就 需要 一 个 内 容 管理 系 
统 , 通 过 它 进 行文 档 的 存储 。 实 际 上 ,XML 文档 可 以 分 为 两 大 类 : 以 数据 为 
中 心 的 文档 和 以 文档 为 中 心 的 文档 。 

d) 以 数据 为 中 心 的 文档 : 以 数据 为 中 心 的 文档 有 非常 规则 的 结构 , 比 
如 关于 销售 订单 或 者 是 饭店 菜单 的 XML 文档 ,通常 是 为 机 器 设计 的 ,主要 
方便 机 器 进行 处 理 ,用 作 数 据 的 传输 载体 。 一 般 来 说 ,任何 Web 站 点 都 可 以 
动态 的 构建 HTML 文档 ,其 步骤 如 下 : 根据 用 户 的 查询 请 求 找到 相关 的 面向 
数据 的 XML 文档 ,然后 通过 XSLCXtensible Stylesheet Language, 可 扩展 样式 
表 语 言 ) 对 XML 文档 进行 转化 .让 基于 HTML 的 浏览 器 方便 浏览 结果 。 

(2) 以 文档 为 中 心 的 文档 : 以 文档 为 中 心 的 文档 具有 不 规则 的 结构 ,而 
且 数据 的 粒度 也 比较 大 。 如 书本 .电子 邮件 .广告 等 。 以 文档 为 中 心 的 文档 
主要 是 为 人 消费 而 设计 的 ,通常 是 以 XML 手工 写成 ,或 从 其 他 格式 (如 
RTF、PDF、SGML) 转 换 到 XML, 

为 了 存储 或 提取 数据 ,可 以 使 用 数据 库 和 中 间 件 ,或 者 可 以 使 用 XML 
服务 器 ,或 者 是 基于 XML 的 Web 服务 器 ; 为 了 存储 文档 ,需要 一 个 内 容 管 
理 系统 或 者 是 可 持久 化 的 DOM 实现 。 如 何 有 效 地 存储 和 查询 XML 数据 
是 当前 研究 的 一 个 热点 。 在 存储 和 查询 XML 数据 这 一 领域 ,主要 有 两 种 方 
法 : 一 种 是 为 XML 数据 量 身 定做 的 数据 库 即 纯 XML 数据 库 。 纯 XML 数 
据 库 充分 考虑 到 XML 数据 的 特点 ,以 一 种 自然 的 方式 来 处 理 XML 数据 ,能 
够 从 各 方面 很 好 地 支持 XML 的 存储 和 查询 ,并 且 能 够 取得 较 好 的 效果 ,但 
是 纯 XML 数据 库 要 走向 成 熟 还 有 很 长 的 路 。 第 二 种 是 在 已 有 的 关系 数据 
库 系 统 或 面向 对 象 数据 库 系统 的 基础 上 扩充 相应 的 功能 ,使 其 能 够 胜任 
XML 数据 的 处 理 , 这 种 数据 库 又 称 为 XML 使 能 数据 库 。 目 前 ,XML 使 能 
数据 库 的 研究 主要 是 基于 关系 数据 库 趾 ,可 以 充分 利用 已 有 的 非常 成 熟 的 
关系 数据 库 技术 ,集成 现 有 的 大 量 存储 在 关系 数据 库 中 的 商用 数据 ,但 这 种 
处 理 方法 不 能 利用 XML 数据 自身 的 特点 ,如 结构 化 、 自 描述 性 等 特征 ,使 得 
在 处 理 XML 数据 的 时 候 要 经 过 多 级 复杂 的 转换 ,如 存储 XML 数据 时 要 将 
其 转换 为 关系 表 或 对 象 ,在 查询 的 时 候 要 将 XML 查询 语言 转换 为 SQL, 查 
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询 结 果 还 要 转换 为 XML 文档 等 ,多 级 转换 必 将 带 来 效率 的 降低 。 


2.1 XML 数据 库 分 类 及 存储 


目前 XML 数据 库 有 下 面 三 种 类 型 [3 

CD 纯 XML 数据 库 (Native XML Database. NXD)。 其 特点 是 以 自然 
的 方式 处 理 XML 数据 ,以 XML 文档 作为 基本 的 逻辑 存储 单位 。 针 对 XML 
数据 存储 和 查询 特点 专门 设计 适用 的 数据 模型 和 方法 。 

(2) 使 能 XML 数据 库 (XML Enabled Database,XEDB) 。 其 特点 是 在 原 有 
的 数据 库 系 统 上 扩充 对 XML 数据 的 处 理 功能 ,使 之 能 适应 XML 数据 存储 和 
查询 的 需要 。 一 般 的 做 法 是 在 数据 库 系 统 之 上 增加 XML 映射 层 ,可 以 由 数据 
库 供应 商 提 供 , 也 可 以 由 第 三 方 厂商 提供 。 映 射 层 管理 XML 数据 的 存储 和 检 
索 , 但 原始 的 XML 元 数据 和 结构 可 能 会 丢失 ,而 且 数 据 检索 的 结果 不 保证 是 
原始 的 XML 形式 。XEDB 的 基本 存储 单位 与 具体 的 实现 紧密 相关 。 

(3) 混合 XML 数据 库 (Hybrid XML Database, HXD)。 根 据 应 用 的 需 
求 ,可 以 视 其 为 XEDB 或 NXD 的 数据 库 , 比 较 典 型 的 例子 是 Ozone"? , 

因为 底层 的 存储 表达 对 上 层 的 查询 处 理 和 优化 有 着 重要 的 性 能 影响 ， 
所 以 如 何以 最 好 的 方式 存储 XML 文档 已 经 成 为 一 个 重要 问题 。 根 据 已 有 
的 文献 上 9 ,XML 数据 库 的 存储 策略 主要 有 以 下 四 种 : 利用 文件 系统 的 平 
面 文件 、 利 用 成 熟 的 RDBMS(Relational Database Management System. X 
系数 据 库 管理 系统 )、 利 用 对 象 管理 器 或 OODBMS (Object-Oriented 
Database Management System. 面向 对 象 数 据 库 管理 系统 )、 采 用 全 新 的 
Native XML 数据 库 管理 系统 。 


2.2 f XML 数据 库 的 存储 结构 和 检索 技术 


关于 纯 XML 数据 库 ,R. Bourret 给 出 了 一 个 定义 , 即 只 有 满足 以 下 3 
个 条 件 的 XML 数据 库 才能 称 之 为 纯 XML Zia E 
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CD 为 XML 文档 定义 了 一 个 (逻辑 ) 模 型 ,XML 数据 的 存储 和 查询 都 
基于 这 个 模型 。 这 个 模型 至 少 要 包含 元 素 、 属 性 以 及 PCDATA 等 ,并 保持 
文档 顺序 。 

(2) 将 XML 文档 作为 (逻辑 ) 存 储 的 基本 单位 ,正如 关系 数据 库 将 行 
(元 组 ) 作 为 存储 的 基本 的 单位 一 样 。 

(3) 不 要 求 只 能 使 用 某 一 特定 的 底层 物理 模型 或 某 种 专 有 的 存储 格式 。 

从 定义 中 可 以 看 出 , 纯 XML 数据 库 的 核心 在 于 其 模式 , 即 它 的 逻辑 模 
式 必须 是 某 种 特殊 的 模型 ,而 不 能 是 关系 的 或 面向 对 象 的 。 换 言 之 , 纯 
XML 数据 库 与 XML 使 能 数据 库 的 本 质 区 别 是 其 (逻辑 模式 不 同 , 而 不 是 
其 底层 的 存储 方式 不 同 。 


2.2.1 纯 XML 数据 库 的 存储 结构 


存储 结构 是 索引 查询 处 理 与 优化 以 及 事务 和 并 发 控制 的 基础 。 简 略 
地 说 ,XML 存储 管理 的 任务 是 : 一 方面 能 够 有 效 地 存储 XML 数据 , 另 一 方 
面 要 能 够 有 效 地 支持 查询 和 更 新 。 


1. 存储 方案 


纯 XML 数据 库 在 物理 上 存储 XML 数据 主要 有 三 种 方案 : 

(1) 平坦 的 流 方式 (flat streams) 或 者 称 之 为 基于 文本 的 方式 (text- 
based) ,即将 XML 数据 转换 成 字 节 流 , 然 后 将 其 存储 在 文件 系统 的 文本 文 
件 中 ,或 存储 为 数据 库 的 BLOB 字段 中 ,然后 在 这 些 文件 或 字段 上 建立 一 些 
索引 。 这 种 方法 的 优点 是 当 存储 或 检索 整个 文档 或 连续 的 文档 片断 时 速度 
很 快 ,并 且 能 够 精确 地 再 现 原来 的 XML 文档 ,但 是 当 重 组 整个 文档 或 者 提 
取 文档 的 结构 时 效率 很 低 , 因 为 它 只 有 通过 对 整个 文档 的 解析 才能 实现 。 

(2) 建立 模型 或 称 之 为 基于 模型 的 方式 (model-based) , 即 按照 某 种 ( 物 
理 ) 模 型 存储 XML 文档 。 根 据 模型 的 不 同 ,又 分 为 两 种 方案 : 一 种 是 采用 
关系 的 或 面向 对 象 的 数据 库 作为 数据 的 储存 库 , 另 一 种 是 为 XML 数据 库 设 
计 专 有 的 存储 方案 。 前 一 种 方案 能 够 利用 现 有 的 关系 或 对 象 数据 库 技术 
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(如 并 发 控制 的 技术 ) ,并 且 在 重组 文档 片断 或 不 同文 档 时 比较 快 ,但 是 ,在 
逻辑 层 和 物理 层 的 数据 需要 经 过 转换 ,因而 会 降低 处 理 效率 。 后 者 如 DOM 
或 它 的 变 体 ,比如 Infonyte DBP RH HYI PDOM 方式 就 是 先 将 文档 转换 为 
DOM 结构 ,然后 将 其 映射 到 一 些 特殊 文件 中 。 这 种 方案 能 够 以 一 种 比较 自 
然 的 方式 来 存储 XML 数据 ,避免 转换 ,但 由 于 采用 全 新 的 存储 方案 ,其 他 方 
面 的 技术 不 如 前 者 成 熟 。 

(3) 综合 前 面 两 种 方式 的 特点 , 称 为 混合 型 (mixed), 细 分 为 元 余 型 
(redundant) 和 杂交 型 (bybrid) 。 宛 余 型 是 指 每 份 数据 保持 两 份 副本 ,一 份 
是 基于 文本 方式 存储 ,一 份 基于 模型 存储 。 这 样 可 以 同时 利用 两 种 方式 的 
优点 ,但 是 如 果 两 种 方式 处 于 不 一 致 状态 , 则 更 新 效率 很 低 。 在 杂交 型 存储 
方案 中 规定 一 个 数据 单元 ,粒度 大 于 这 个 数据 单元 的 部 分 以 模式 方式 存储 ， 
而 粒度 较 小 的 部 分 则 不 再 细 分 ,直接 平面 存储 , Natixt 趾 就 是 采用 这 种 存储 
方式 。 

在 实际 的 纯 XML 数据 库 中 用 得 比较 多 的 是 基于 模型 的 方式 和 杂交 方 
式 。 文 献 [10] 给 出 了 一 系列 纯 XML 数据 库 产品 列表 ,有 些 产 品 的 XML f£ 
储 结构 是 从 文档 处 理 的 角度 出 发 而 不 是 从 数据 库 的 角度 出 发 考虑 的 ,如 它 
们 的 结构 是 过 程 性 的 一 次 一 元 组 的 ,比较 适合 处 理 小 文档 。 也 有 一 些 系统 
构建 在 传统 数据 库 之 上 ,具有 多 级 转换 和 处 理 大 数据 效率 较 低 的 缺点 。 


2. 记录 的 物理 存储 和 存储 粒度 


尽管 各 种 纯 XML 数据 库 基 于 的 模型 不 一 样 ,但 基本 原理 都 是 抽象 成 一 
个 由 各 种 结 点 组 成 的 树 状 模型 , 树 中 常见 的 结 点 有 元 素 结 点 、 属 性 结 点 、 文 
本 结 点 等 。Infonyte DB 完全 是 基于 DOM 模型 的 。Lore55 中 的 数据 模型 
是 称 为 OEM(object exchange model) 的 一 种 有 向 边 标 记 图 (labeled directed 
graph) ,这 个 图 中 的 各 个 对 象 基本 上 就 对 应 了 各 个 元 素 结 点 ,而 属性 和 文本 
结 点 则 没有 作为 单独 的 对 象 表示 出 来 。 在 Timer? 3 中 采用 了 一 种 DOM 树 
的 变 体 ,在 它 的 树 模型 中 ,每 个 元 素 都 对 应 着 一 个 结 点 , 子 元 素 对 应 着 子 结 
点 ,元 素 结 点 的 内 容 也 对 应 着 一 个 结 点 ,而 元 素 结 点 的 所 有 属性 聚集 为 一 个 
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孩子 结 点 ; 如 果 元 素 是 混合 类 型 , 则 它 的 对 应 部 分 相应 的 抽取 成 为 一 个 孩子 

在 物理 存储 中 , 存 取 的 最 小 单位 是 记录 ,每 个 记录 都 有 自己 的 ID, 因 此 
在 决定 存储 方案 时 就 要 考虑 三 个 关键 问题 : 一 是 记录 与 结 点 的 对 应 关系 , 即 
记录 的 粒度 ; 二 是 记录 的 顺序 ; 三 是 记录 的 内 部 表示 , 即 当 一 个 记录 对 应 于 
多 个 结 点 时 , 结 点 在 记录 内 部 如 何 表示 。 

记录 的 粒度 主要 有 三 种 : 

CD 结 点 级 : 每 个 结 点 对 应 一 个 记录 。 结 点 在 不 同 的 系统 中 含义 不 同 ， 
有 的 系统 中 结 点 泛 指 元 素 结 点 (element node) .属性 结 点 (attribute node), 
文本 结 点 (text node) 和 混合 结 点 (mixed node) ,有 的 系统 则 仅 把 元 素 结 点 和 
该 元 素 结 点 的 属性 结 点 和 文本 结 点 看 作 一 个 结 点 。 

(2) FRR: 一 个 子 树 对 应 一 个 记录 。 这 种 方法 的 关键 在 于 如 何 划 分 
子 树 , 可 根据 物理 块 大 小 划分 ,也 可 根据 逻辑 意义 划分 。 

(3) 文档 级 : 将 整个 文档 作为 一 个 记录 。 

这 几 种 粒度 的 记录 组 织 方式 各 有 特点 ,记录 的 粒度 越 小 ,记录 数目 就 越 
多 ,用 以 表示 记录 之 间 联 系 的 指针 (物理 的 或 逻辑 的 ) 就 越 多 , 宛 余 空 间 需 要 
的 也 越 多 ,从 而 使 得 记录 的 存储 效率 降低 ,但 是 粒度 小 的 记录 在 重组 文档 时 
可 以 避免 不 必要 的 转换 和 解析 ; 记录 的 粒度 越 大 ,记录 表示 的 结 点 就 越 多 ， 
因此 在 构造 记录 ,向 记录 中 插入 结 点 和 分 型 记录 时 就 越 麻烦 。 

在 几 种 常见 的 纯 XML 数据 库 中 ,Lore 和 Timer 是 记录 结 点 级 的 例子 ， 
Natix00 和 OrientX0 11 是 记录 子 树 级 的 例子 ,OrientX 是 中 国人 民 大 学 孟 
小 峰 教 授 等 研究 开发 的 一 个 纯 XML 数据 库 系统 ,Xindicet 中 是 文档 级 记录 
的 例子 。 


3. 记录 的 组 织 顺序 


对 于 结 点 级 或 子 树 级 记录 来 说 ,还 有 一 个 记录 的 组 织 顺序 问题 ,其 实 文 
档 级 记录 也 有 记录 的 顺序 问题 ,因为 实际 的 数据 库 要 存储 多 个 文档 。 记 录 
的 存储 顺序 一 般 有 以 下 几 种 : 按 深度 优先 存储 ; 按 广 度 优 先 存储 ; 按 同类 记 
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录 聚 集 存储 ,即将 类 型 相同 的 记录 尽量 存储 在 相 邻 的 位 置 上 。 

目前 ,大 部 分 纯 XML 数据 库 都 采用 深度 优先 的 方法 存储 记录 ,因为 深 
度 优先 实现 起 来 比较 简单 ,同时 存储 的 顺序 与 XML 文档 的 原始 顺序 是 一 致 
的 。 广 度 优先 的 方式 还 没有 被 采用 ,聚集 存储 的 方法 在 OrientX 中 实现 过 ， 
称 为 按 逻 辑 意义 的 存储 。 所 谓 的 逻辑 意义 , 指 语义 , 即 语义 相近 的 记录 尽量 
聚集 存储 。 

将 记录 粒度 和 记录 存储 顺序 综合 考虑 ,可 以 得 到 五 种 存储 方法 : 结 点 级 
且 深度 优先 存储 (DEB) 、 结 点 级 且 同 类 聚集 存储 (CEB) 、 子 树 级 且 深 度 优先 
存储 (DSB) . 子 树 级 上 且 同类 聚集 存储 CCSB) 以 及 文档 级 存储 (DB) 。 

文档 级 的 存储 方法 实际 上 用 得 很 少 。 文 献 [16] 对 其 他 四 种 存储 方法 进 
行 了 试验 比较 ,结果 如 下 : 存储 性 能 (主要 涉及 存储 空间 和 物理 页 利用 率 ) 较 
好 的 是 CSB, 查 询 性 能 (主要 涉及 1/0 数量 和 I/O 增长 率 ) 较 好 的 是 DSB. 

图 2-1 是 Natix 中 记录 的 格式 ,其 中 (a) 是 一 个 XML 子 树 片段 ,图 (b) 是 
这 个 子 树 作为 一 个 记录 存储 时 的 内 部 表示 。 


OTHELLO Let me see your eyes Look in my face 


(a) 一 个 XML 子 树 片段 


内 容 | 10B | 6B | 6B |OTHELLO| 6B | 6B | Let... | 6B | 6B | Look... 
T" Header | Header Contents Header | Header | Contents Header Header |Contents 
eader 

结构 SPEAKER node LINE node LINE node 


| SPEECH node 


(b) 一 个 记录 的 内 部 表示 


图 2-1 Natix 中 记录 的 格式 


从 图 中 可 以 看 出 , 结 点 是 嵌 套 存储 的 ,每 个 结 点 由 两 部 分 组 成 ,一 个 是 
首部 (header) ,一 个 是 正文 (contents)。 记 录 内 的 非 根 结 点 的 首部 长 为 6B， 
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首部 包含 了 2B 的 指向 父 结 点 的 指针 (有 了 这 个 指针 后 , 结 点 其 实 可 以 在 记 
录 内 移动 ; 一 个 记录 最 大 就 是 一 个 页 ,而 一 个 页 是 小 于 64KB 的 ,因而 用 2B 
的 指针 是 足够 的 ) ,还 有 2B 表示 对 象 的 大 小 ,另外 的 2B 用 来 表示 结 点 的 类 
型 ( 详 见 文献 [18]) 。 除 了 首部 外 ,就 是 每 个 结 点 的 正文 信息 。 


2.2.2 纯 XML 数据 库 的 索引 技术 


除了 存储 方案 之 外 ,索引 技术 也 是 决定 一 个 数据 库 系 统 最 重要 的 因素 
之 一 。 讨 论 索 引 技 术 时 ,主要 考虑 两 个 问题 : 一 是 索引 的 对 象 , 即 在 什么 数 
据 上 建立 索引 ; 二 是 索引 的 组 织 结构 。 一 般 的 纯 XML 数据 库 都 对 多 个 对 
FERI ,主要 有 值 索 引 , 即 在 属性 值 或 结 点 内 容 上 建 索 引 ; 结 点 名 索引 , 即 
在 结 点 标记 上 面 建立 索引 ; 边 或 路 径 索 引 , 即 在 XML 文档 树 的 边 上 面 建立 
索引 ,如 路 径 字 典 (Path Dictionary) 。 

在 XML 数据 库 中 ,B!* 树 和 哈 希 表 仍 然 是 最 常用 的 索引 结构 。 除 此 之 
外 ,也 使 用 了 一 些 新 的 索引 结构 ,如 Trie、Patrica 等 。 这 些 索引 结构 一 般 都 
是 针对 XML 数据 的 某 些 特征 进行 了 优化 ,因而 有 可 能 发 挥 较 好 的 性 能 。 下 
面 介绍 几 种 代表 性 索引 技术 。 


1. Fabric 索引 


Fabric 索引 m1 是 一 种 全 新 的 索引 结构 。 基 本 思想 是 将 半 结 构 化 数据 
之 间 的 关系 表示 成 路 径 , 将 路 径 编 码 成 字符 串 ,然后 在 这 些 字符 串 上 建立 一 
种 索引 结构 。 这 种 索引 结构 很 适合 复杂 字符 串 的 快速 搜索 , 且 代价 比较 低 ， 
已 经 引起 了 一 些 学 者 的 兴趣 。 其 特点 是 : 

* 能 够 管理 大 量 长 而 复杂 的 字符 串 ; 

。 其 结构 是 平衡 的 ,因而 不 同 的 访问 所 需 的 代价 几乎 是 一 样 的 ; 

。 本 身 的 结构 是 高 效 的 。 虽 然 管理 大 量 长 字符 串 , 但 是 由 于 采用 了 巧 

妙 的 算法 组 织 这 些 字符 串 ,因而 数据 的 压缩 率 很 高 
。 即 可 以 作 路 径 索 引 , 也 可 以 作 值 索引 。 
Fabric 索引 是 从 Trie 发 展 而 来 的 。Trie 是 字符 串 的 一 种 编码 方式 。 它 
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是 一 种 多 路 树 ,用 从 根 到 叶 的 每 条 边 表 示 一 个 字符 。 图 2-2(a) 给 出 了 一 个 
Trie 的 例子 。 

Patricia Trie( 简 称 PT 树 ) 是 一 种 Trie 的 变 体 , Trie 中 仅 有 一 个 孩子 结 
点 的 内 结 点 在 PT 树 中 没有 表示 出 来 。 换 个 角度 看 ,PT 树 不 是 像 Trie 那样 
将 每 个 字符 都 在 边 上 表示 出 来 ,而 是 仅 将 字符 串 之 间 的 差异 表示 出 来 。 
图 2-2(b) 是 一 个 PT 树 的 例子 ,表示 的 串 与 图 2-2(a) 完 全 相同 。 正 是 因为 
PT 树 只 描述 串 之 间 的 区 别 , 因 此 它 增 长 得 很 慢 ,同时 索引 项 的 长 度 对 它 的 
大 小 没有 什么 影响 。 


car | …][Lcat [~ car | … | cat | … ] 


(a) Trie 树 (b) Patricia Trie 树 
图 2-2 Trie 树 与 Patricia Trie 树 


PT 树 本 身 是 不 平衡 的 ,从 图 2-2(b) 中 可 以 看 出 。Fabric 索引 对 PT 树 
进行 了 平衡 化 处 理 。 这 种 平衡 化 处 理 不 是 从 PT 树 本 身 的 纵向 结构 处 理 , 而 
是 通过 附加 一 个 水 平 的 层次 实现 的 。 同 时 为 了 便于 在 计算 机 中 存储 ,Fabric 
索引 把 PT 树 分 裂 成 若干 个 子 树 。 每 个 子 树 存放 在 一 个 物理 单位 (如 块 
block) rp , 块 与 块 之 间 仍 然 是 相互 关联 的 。 普 通 的 Trie AR PT 树 ) 在 搜索 
字符 串 时 都 是 从 树 的 根 结 点 出 发 自 上 而 下 遍历 ,直至 到 达 叶 结 点 。 可 以 想 
象 , 如 果树 的 层次 太 多 ,这 种 访问 很 耗 时 ,并 且 在 搜索 不 同 的 串 时 遍历 的 深 
度 差别 很 大 。 在 PT 树 中 ,解决 这 个 问题 的 方法 是 构造 一 个 高 层 (最 底 是 0 
层 , 然 后 是 1 层 ……) ,在 第 i 十 1 层 里 包含 了 第 i 层 的 子 树 的 指针 ,访问 字符 
串 时 ,就 可 以 直接 从 高 层 出 发 ,通过 层 与 层 之 间 的 横向 指针 来 直接 访问 相应 
的 块 ,必要 时 再 辅 以 纵向 指针 访问 ,从 而 大 大 节省 访问 的 深度 。 这 种 分 裂 并 
平衡 化 处 理 后 的 PT 树 如 图 2-3 所 示 。 
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level 2 level 1 level 0 
r-z 
e» f 
r---1 |n OF- 
L !c 
1 f i 
| 1 | EE a 
1 SK 1 
Iud L 


图 2-3 分 裂 并 平衡 化 处 理 后 的 PT RI 


平衡 化 处 理 后 ,好 像 在 水 平方 向 上 也 构造 了 一 个 PT 树 , 并 且 这 个 PT 
树 的 深度 很 小 。 现 在 对 所 有 字符 串 的 搜索 都 是 从 最 高 层 (图 2-3 中 的 第 2 
层 ) 开 始 逐 层 深 入 ,一 直到 最 低层 (图 2-3 中 的 第 0 层 ) ,因此 这 个 过 程 总 是 平 
衡 的 ,搜索 不 同 的 串 所 需 的 磁盘 I/O 总 是 一 定 的 。 

为 了 利用 Fabric 索引 来 管理 XML 的 路 径 信息 ,文献 [21] 定 义 了 两 种 编 
码 路 径 的 方式 。 一 种 是 比较 简单 的 , 称 为 简单 路 径 (raw path); 另 一 种 包含 
了 比较 精确 的 信息 , 称 为 精致 路 径 (refined path)。 简 单 路 径 将 从 根 到 叶 结 
点 的 路 径 按 顺序 编 成 字符 串 , 如 XML 片段 : 


«A2» alpha B beta C7 gamma / C7 — /B7 — / A— 


7H —ÁRR BD HB Az RU PETS AT alpha, <A> — B beta, AT <B> 
—C2»gamma. lll 4 41 3l A,B,C 3E fe — A , Bo VC ,那么 这 三 条 
路 径 可 以 用 字符 串 表 示 为 A alpha, A B beta, A B C gamma 3X J& tB nT DJ Jf] 
Fabric 索引 管理 以 支持 查询 。 精 致 路 径 则 不 仅 对 路 径 进行 编码 ,也 对 其 他 信 
息 进 行 编码 ,从 而 可 以 支持 复杂 查询 ,如 含 通配符 的 查询 等 。 考 虑 图 2-4 所 
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m XML xfi. 


<invoice> 
«buyer 
<name> ABC Corp. </name> 
buyer 
seller 
<name> Acme Inc. </name> 
</seller> 
<item count=3> drill </item> 
</invoice> 


图 2-4 一 个 XML 文档 实例 


如 果 查 询 “ 查 询 X 公司 卖 东 西 给 Y 公司 的 发 票 ” 是 一 个 频率 很 高 的 查询 
操作 ,那么 可 以 构造 一 个 精致 路 径 : 引入 一 个 标志 符 Z, 然 后 将 文档 中 对 应 
的 信息 编码 为 “Z ABC Corp. Acme Inc.”, 然 后 将 这 些 串 存储 在 Fabric 索引 
中 ,那么 这 个 串 就 对 应 图 2-4 中 的 文档 ,执行 这 个 查询 只 需 搜索 这 个 索引 结 
构 ,而 不 需 操作 原文 档 。 


2. 相对 区 间 坐 标 (relative region coordinate. RRC??! ) 索 引 


这 种 技术 其 实 不 仅 是 索引 技术 ,更 是 一 种 存储 技术 。 相 对 区 间 坐 标 是 
从 绝对 区 间 坐 标 (absolute region coordinate, ARC) 演 化 而 来 的 。 所 谓 绝对 
区 间 坐 标 , 实 际 上 就 是 一 种 区 间 编 码 方案 , 即 每 个 结 点 都 联系 一 个 二 元 组 
start end> ,分 别 表示 结 点 的 开始 和 结束 位 置 ,并 且 都 是 在 文档 中 的 绝对 
位 置 。ARC 可 以 很 好 地 支持 查询 操作 ,尤其 是 包含 (containment) 操 作 。 对 
于 更 新 操作 , 它 的 效率 不 是 很 好 ,原因 就 在 于 插入 或 更 新 很 多 结 点 的 时 候 ， 
可 能 会 导致 大 量 结 点 的 区 间 坐 标 改变 。RRC 就 是 针对 更 新 操作 在 ARC JE 
础 上 演变 而 来 。 一 个 结 点 的 RRC 坐标 同样 是 一 个 二 元 组 过 start,end 记 ,但 
是 这 两 个 坐标 都 是 该 结 点 在 父 结 点 中 的 相对 位 置 ,而 不 是 绝对 位 置 。 在 更 
新 的 时 候 , 结 点 坐标 的 改变 就 可 以 局 限 在 其 父 结 点 之 内 ,从 而 提高 更 新 

这 种 方法 的 主要 思路 : 一 个 结 点 更 新 (插入 或 删除 ) 的 时 候 ,只 会 使 有 限 


第 2 章 XML 与 数据 库 33 


个 结 点 受到 影响 。 如 果 能 把 那些 受到 影响 的 结 点 聚集 存储 ,比如 ,将 这 样 的 
结 点 存储 在 一 个 块 中 ,在 更 新 的 时 候 就 只 需 读 和 人 这 一 个 块 ,从 而 可 避免 过 多 
的 磁盘 IO。 另 外 ,这 些 结 点 仍然 以 树 的 形式 组 织 , 并 且 保持 它们 的 相对 位 
置 , 子 树 之 间 也 尽量 保持 原来 的 相对 位 置 , 从 而 可 避免 查询 过 于 复杂 。 基 于 
以 上 两 个 思想 ,可 以 把 一 个 XML 文档 树 划分 为 若干 子 树 , 即 让 结 点 聚集 存 
储 , 每 个 子 树 的 大 小 接近 块 大 小 ,然后 把 这 些 子 树 块 串 起 来 ,形成 一 棵 树 。 
在 这 种 结构 上 进行 查询 和 更 新 操作 可 以 使 二 者 的 效率 都 可 以 接受 。 

很 明显 ,基于 这 种 结构 进行 查询 时 ,每 个 结 点 的 绝对 位 置 都 不 能 直接 得 
到 ,而 要 经 过 多 级 运算 ,这 样 势必 会 降低 查询 效率 。 换 句 话说 ,这 种 方法 只 
不 过 是 更 新 效率 和 查询 效率 的 一 种 折 中 。 另 外 ,这 种 方法 的 关键 同样 在 于 
子 树 的 划分 是 否 合理 ,如 果 有 大 量 插入 操作 ,势必 将 引起 子 树 的 分 裂 ,这 种 
分 列 的 效率 如 何 还 需 实验 分 析 得 知 。 


3. 实例 分 析 


COD. Loret 当 中 的 索引 技术 

在 Lore 中 有 四 种 索引 。 

* 链接 索引 Lindex(link index) : Lore 基于 一 种 称 之 为 对 象 交换 模型 
OEM(object exchange model) 的 图 状 模 型 。Lore 本 身 没有 提供 访问 
双亲 结 点 的 机 制 ,这 个 机 制 是 用 链接 索引 来 实现 的 。 链 接 索 引 以 一 
个 oid( 对 象 的 id) 和 一 个 标记 label 为 输入 ,返回 该 结 点 的 双亲 结 点 ， 
且 该 结 点 与 双亲 结 点 间 的 边 标 记 为 label, 如果 label 为 空 , 则 返回 该 
结 点 的 所 有 双亲 结 点 。 链 接 索 引 是 用 可 扩展 的 哈 希 表 实 现 的 ,因为 
链接 索引 永远 只 作 等 值 检索 。 链 接 索 引 是 系统 自动 根据 整个 数据 库 
图 产生 的 。 

。 值 索引 Vindex( Value Index); 值 索 引 的 对 象 是 原子 类 型 的 对 象 。 
目前 在 Lore 中 主要 是 整 型 . 实 型 和 字符 串 型 的 对 象 。 与 一 般 索 引 项 
不 同 的 是 , 值 索引 的 索引 项 不 只 是 这 些 对 象 的 值 ,还 包括 一 条 入 边 的 
标记 ,因为 有 些 标记 名 是 经 常 进行 查询 的 ,如 查询 “book. price > 
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50”, 在 标记 (price) 和 值 (50) 上 建立 索引 , 比 单独 在 值 上 建 索 引 要 快 。 
而 一 般 的 查询 总 是 跟 一 定 的 标记 联系 起 来 的 ,当然 并 不 是 所 有 的 值 
索引 都 包含 标记 ,这 是 可 选 的 。 值 索引 在 Lore 中 是 用 B* 树 索引 实 
现 的 ,所 支持 的 数据 类 型 只 有 三 种 , 即 整 型 . 实 型 和 字符 串 型 。 

文本 索引 Tindex(Text Index): 值 索 引 可 以 快速 支持 一 些 简单 查 
询 ,如 等 值 查询 和 不 等 值 查询 等 ,但 是 当 很 多 查询 涉及 到 复杂 的 文本 
查询 时 ,如 关键 字 检 索 , 值 索引 就 力不从心 了 。 为 了 支持 更 复杂 的 文 
本 查询 ,Lore 中 使 用 了 文本 索引 。 文 本 索引 能 够 找到 包含 特定 词 的 
对 象 以 及 该 词 在 对 象 值 ( 文 本 ?中 的 位 置 。 与 值 索 引 类 似 , 也 可 以 在 
索引 项 中 加 入 边 标记 。 与 传统 的 文本 检索 系统 使 用 的 索引 结构 相 
F], Lore 使 用 倒 排列 表 来 实现 文本 索引 。 

路 径 索 引 Pindex(Path Index): Lore 的 查询 语言 Lorel 中 经 常用 到 
路 径 表 达 式 。 如 DB. Movie. Title= *Star Wars" ,如 果 不 用 索引 ,这 
种 路 径 查询 就 只 能 通过 自 上 而 下 的 遍历 来 实现 ,显然 速度 是 很 慢 的 。 
如 果 建 立 了 路 径 索 引 , 这 种 查询 会 快 得 多 。 路 径 索 引 返 回 通过 路 径 
能 到 达 的 所 有 对 象 。 路 径 索 引 是 和 Lore 的 DataGuide 配合 使 用 的 。 


(2) Timer 中 的 索引 技术 
Timer 中 的 索引 技术 主要 是 从 面向 对 象 数 据 库 中 引进 的 。Timer 中 的 


索引 主要 有 两 种 : 值 索 引 和 结 点 索引 。 值 索引 建立 在 属性 值 和 元 素 结 点 内 
容 上 , 当 结 点 内 容 是 打 断 文本 时 ,将 会 建立 基于 词 (term-based) 的 倒 排 索引 
(inverted index) 。 结 点 索引 建立 在 元 素 结 点 标记 名 (tag name) 上 。 这 样 ,给 
定 一 个 名 称 ,就 能 够 返回 所 有 标记 名 为 该 名 称 的 元 素 。Timer 中 的 所 有 索引 
都 是 建立 在 Shore 的 支持 之 上 ,都 是 用 B 树 索引 结构 。 


在 关系 数据 库 中 ,索引 结构 返回 的 是 记录 的 id Rid) ,记录 的 id 实际 上 


指出 了 记录 的 物理 存储 地 址 。 在 XML 数据 库 中 ,由 于 记录 与 结 点 不 是 对 应 
的 ,因此 不 能 直接 返回 记录 的 id, 而 应 返回 结 点 id。 在 Timer 中 ,每 个 结 点 


J 


HE— f — 762H < start. end, level > RRR. start 和 end 分 别 是 开始 进入 


和 离开 结 点 的 位 置 ,并 且 总 是 满足 end 不 小 于 start。 该 结 点 的 所 有 孩子 和 
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后 裔 结 点 都 在 start 和 end 之 间 ,level 表示 结 点 在 文档 中 的 层次 。 这 种 结构 
能 够 较 好 的 支持 双亲 /和 孩子 和 祖先 /后 裔 包含 关系 的 判断 ,并 且 能 较 好 的 支 
持 插 和 人 更 新 。 

(3) Natix 中 的 索引 技术 

Natix 中 同样 使 用 了 两 种 类 型 的 索引 ,一 种 是 单纯 的 文本 上 的 索引 , 另 
一 种 是 包含 了 某 些 结构 信息 的 索引 。 

Natix 的 文本 索引 使 用 的 是 一 种 很 常用 的 索引 结构 一 倒 排 文件 
(inverted file) 。 一 般 的 倒 排列 表 中 只 存储 了 文档 的 标识 和 文档 内 的 偏 移 
量 , 在 Natix 中 , 倒 排列 表 中 除了 这 些 信 息 外 还 存储 了 一 些 额 外 的 内 容 , 这 些 
内 容 包含 了 更 多 的 上 下 文 信息 ,同时 尽量 保证 索引 的 性 能 ,这 样 在 查询 时 可 
以 更 精确 ,并 且 效 率 会 更 高 。 

除了 文本 索引 外 , Natix 中 还 引入 了 一 种 索引 结构 XASR (Extended 
Access Support Relation) 9 。 这 种 索引 结构 能 够 保持 结 点 的 双亲 /孩子 和 
祖先 /后 裔 关系 ,在 查询 时 特别 有 用 。 索 引 结构 KASP 是 通过 为 每 个 结 点 
维持 两 个 标记 来 实现 的 ,这 两 个 标记 是 ds 和 du ,分 别 指 深度 优先 遍历 时 第 
一 次 进入 该 结 点 (及 其 子 树 ) 和 最 后 离开 该 结 点 时 的 值 , 实 际 上 与 Timer 中 
的 start 和 end 有 异曲同工 之 妙 。 在 XASR 表 中 ,为 每 个 结 点 都 存储 了 一 个 
表 , 表 中 的 内 容 有 结 点 dan 和 dus 、 结 点 名 、 文 档 id 以 及 父 结 点 的 du fH o 

XASR 是 和 文本 索引 配合 使 用 的 ,XASR 能 够 快速 判断 结 点 间 的 包含 
关系 ,文本 索引 能 够 检索 出 特定 词 的 位 置 。 


2.3 使 能 XML 数据 库 的 存储 结构 和 检索 技术 


使 能 XML 数据 库 的 特点 是 在 原 有 的 数据 库 系 统 上 扩充 对 XML 数据 的 
处 理 功能 ,使 之 能 适应 XML 数据 存储 和 查询 的 需要 。 众 所 周知 ,关系 数据 
库 是 使 用 最 为 广泛 的 数据 库 , 为 了 充分 发 挥 商用 关系 数据 库 系 统 数据 处 理 
能 力 强 ,查询 性 能 好 的 优势 ,许多 研究 者 正在 从 事 基于 关系 数据 库 系统 处 理 
XML 数据 以 及 以 XML 文档 发 布 关系 数据 的 研究 工作 。 
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2.3.1 基于 关系 的 XML 数据 存储 


将 XML 文档 映射 为 关系 模式 进行 存储 ,有 两 大 类 映射 方法 : 模型 映射 
(model mapping) 和 结构 映射 (structure mapping)。 对 于 模型 映射 ,需要 将 
XML 文档 模型 ( 即 文档 树 结构 映射 为 关系 模式 ,关系 模式 表示 XML 文档 
模型 的 构造 ,对 于 所 有 XML 文档 都 有 固定 的 关系 模式 ,因此 , 它 与 XML 模 
式 (或 DTD) 无 关 ; 对 于 结构 映射 ,需要 将 XML 模式 (或 DTD) 映 射 为 关系 
模式 ,关系 模式 用 来 表示 目标 XML 文档 的 逻辑 结构 ( 即 XML 模式 或 
DTD) , 它 与 XML 模式 (或 DTD) 相 关 。 

具体 来 说 ,利用 关系 数据 库 系统 存储 和 查询 XML 数据 有 如 下 方法 和 
LL UP 

CD 将 一 个 XML 文档 看 成 是 一 个 有 序 有 向 边 标记 图 , 称 为 XML 图 , 设 
计 一 个 (或 若干 个 ) 关 系 存储 XML 图 的 边 信息 和 结 点 值 , 该 策略 是 属于 基于 
边 的 模型 映射 方法 , 称 为 边 模型 映射 方法 。 

(2) 设计 若干 个 关系 来 存储 XML 文档 树 的 结 点 信息 、 结 点 值 和 结构 信 
息 ( 通 过 区 间 编 码 来 译 码 结构 信息 ,或 直接 存储 双亲 /孩子 结 点 或 祖先 /后 裔 
结 点 对 ) ,该 策略 是 属于 结 点 的 模型 映射 方法 , 称 为 结 点 模型 映射 方法 。 

(3) 从 XML 文档 的 DTD 或 Schema 推断 XML 元 素 应 该 怎样 映射 到 关 
系 表 ,该 策略 属于 结构 映射 方法 。 

(4) 要 求 用 户 或 系统 管理 者 设计 用 于 存储 XML 数据 的 关系 表 结 构 , 对 
于 关系 表 中 的 数据 ,可 以 直接 以 XML 文档 的 方式 进行 发 布 2 ,也 可 以 由 用 
户 或 系统 管理 者 使 用 XML 查询 语言 或 中 间 件 提供 的 语言 来 定义 该 关系 系 
统 所 对 应 的 XML 视图 。 这 样 ,其 他 应 用 就 可 以 利用 XML 查询 语言 
虚 的 XML 视图 上 构造 一 个 查询 ,抽取 XML 视图 中 的 数据 片断 并 对 抽取 的 
部 分 进行 物化 ,实现 将 关系 数据 转换 为 XML 文档 。 该 策略 属于 XML- 
Enabled 数据 库 的 方法 。 


1. 边 模型 映射 方法 


一 个 XML 文档 用 一 个 有 序 有 向 边 标 记 图 ( 称 为 XML 图 ) 来 表示 中 。 在 
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这 种 图 中 ,每 一 个 XML 元 素 用 一 个 结 点 表示 , 结 点 被 标 上 XML 对 象 的 oid; 
元 素 与 子 元 素 ( 或 属性 ) 之 间 的 关系 用 图 中 的 边 来 表示 ,并 在 边 上 标 上 子 元 
素 ( 或 属性 名 ); 为 了 表示 XML 元 素 中 各 子 元 素 的 顺序 ,可 以 对 图 中 从 某 结 
点 引出 的 所 有 边 进 行 排序 ; XML 文档 中 的 值 作为 图 中 叶 结 点 ( 即 属性 或 最 
底层 子 元 素 结 点 ) 表 示 。 图 2-6 是 一 个 XML 文档 (图 2-5) 的 XML 图 ,其 中 ， 
标 有 数字 的 圆圈 为 非 叶 结 点 ,数字 为 结 点 oid; 标 有 以 “v” 开 头 数 字 的 圆圈 为 
叶 结 点 ( 即 值 结 点 ) , 圈 中 编号 为 结 点 oid( 称 为 vid); 每 条 边 的 名 称 后 面 的 数 
字 为 边 的 序号 ; 4 号 结 点 的 editorID 属性 为 IDREF 类 型 , 它 直接 指向 5 号 


结 点 。 


<? Xml version="1.0"?> 
<pub> 
<library> Beijing Library</ library > 
book year="2000"> 
<title>Database System Concepts </ title > 
price?» 26.50-—/ price > 
<author id—"101"— 
—name- Kaily Jone</ name > 
— email» kjone(2 research. bell-labs. com</ email > 
—/ author > 
</book> 
一 book year="2001"> 
<title> Introduction to XML-— / title > 
< priceœ>18080</ price > 
<author id="103"> 
<name> Kaily Jone</ name > 
</ author > 
</book> 
<article editorID="105"> 
<title>A Query Language for XML 一 / title > 
<author id="104"> 
<name> Kaily Jone</ name > 
</ author > 
=/ article > 
<editor id="105"> 
<name> A. Deutsch</name> 
</editor> 
</pub> 


2-5 一 个 XML 文档 实例 
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editor 5 


图 2-6 XML 图 实例 


有 了 XML 图 之 后 ,就 可 以 分 别 设计 关系 表 存 储 XML 文档 的 边 信息 和 
值 。 对 于 用 来 存储 边 信息 的 边 表 有 三 种 设计 方案 : 第 一 种 是 用 一 个 表 来 存 
储 图 的 所 有 边 信息 ,这 种 方法 称 为 Edge 方法 ; 第 二 种 是 所 有 具有 相同 名 称 
的 边 放 在 一 个 边 表 中 ,这 种 方法 称 为 Binary 方法 ; 第 三 种 是 采用 一 个 边 来 
存储 图 中 所 有 路 径 的 边 信息 ,该 方法 称 为 Universal 方法 。 

Edge 边 表 的 关系 模式 为 : Edgelsource, ordinal, label, flag, target) o 

其 中 ,source 域 和 target 域 分 别 用 来 存储 边 的 引出 结 点 和 引入 结 点 对 
象 的 oid,ordinal 域 用 来 反映 该 边 在 兄弟 边 中 的 位 置 序号 ,label 域 用 来 存储 
边 标 记 (edge-label, 即 该 边 所 指向 结 点 的 标记 名 ) ,flag 属性 用 来 反映 该 边 所 
首 向 结 点 的 类 型 ,省 略 文 档 标 识 docID。 

结 点 的 类 型 分 为 两 类 : 叶 结 点 和 非 叶 结 点 。 叶 结 点 的 类 型 分 别 为 
integer, string 等 ,分 别 表示 叶 结 点 的 值 为 整 型 .字符 串 型 等 ; 非 叶 结 点 的 类 
型 均 为 ref。 表 2-1 表示 的 是 图 2-6 的 XML 图 所 对 应 的 Edge 方法 的 边 表 。 


表 2-1 Edge 方法 的 边 表 


source ordinal label flag target 
2 1 year integer v2 
2 2 title string v3 
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续 表 
source ordinal label flag target 
2 3 price decimal v4 
2 4 author ref 6 
2 5 author ref rj 
4 1 editorID ref 5 
4 2 title string v15 


Binary 边 表 与 Edge 边 表 的 原理 相同 ,只 是 将 所 有 具有 相同 边 标记 的 边 
存放 在 一 个 单独 的 边 表 中 , Binary 边 表 的 关系 模式 为 Binaryua (source, 
ordinal,flag,target)。 从 概念 上 说 ,Binary 方法 的 边 表 是 Edge 边 表 的 水 平 
分 割 。 

对 于 用 来 存储 XML 文档 值 的 值 表 有 两 种 设计 方案 : 第 一 种 是 不 单独 
设计 值 表 ,将 值 和 边 存储 在 同一 个 表 中 ,在 边 表 中 直接 增加 一 个 属性 value. 
用 于 存储 叶 结 点 的 值 ,这 种 方法 称 为 内 联 方 法 ; 第 二 种 是 为 每 一 种 可 能 的 取 
值 类 型 设计 一 个 值 表 , 该 方法 称 为 分 离 值 表 。 分 离 值 表 的 关系 模式 为 
Valuewe(Cvid,value)。 其 中 ,vid 属性 用 来 存储 叶 结 点 的 oid 值 ,value 属性 用 
来 存储 叶 结 点 的 值 。 


2. 结 点 模型 映射 方法 


Q. Li fll B. Moon 首先 对 利用 区 间 编 码 方案 有 效 地 处 理 XML 的 RPE 
(Regular Path Expression) Æ HJT T WERE? ,以 实现 快速 地 确定 在 XML 
数据 层次 结构 中 任意 结 点 对 之 间 的 包含 关系 。 

1) XRel 模式 

M. Yoshikawa 和 T. Amagara 等 基于 结 点 模型 映射 方法 提出 了 一 个 
XML 数据 的 关系 存储 模型 , 称 为 XRelca 。XRel 是 通过 区 间 编 码 [ start. 
end] 来 反映 ( 译 码 )XML 文档 的 模型 结构 ,并 根据 内 容 来 划分 边 、 属 性 边 和 
文本 边 , 同 时 将 所 有 路 径 进 行 存 储 , 因 此 XRel 模式 由 以 下 4 个 关系 表 组 成 : 


Element (pathID,docID,start,end,ordinal) 
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Attribute (pathID,docID,start,end,value) 

Text (pathID,docID,start,end,value) 

Path (pathID,pathexp) 

其 中 ,在 Path 表 中 ,pathID 为 标记 路 径 (label-path) 的 标识 ,pathexp 域 
存储 标记 路 径 , 为 了 实现 路 径 表 达 式 的 字符 串 匹配 操作 ,将 标记 路 径 中 的 
“/” 蔡 换 为 “#/” 进 行 存储 。 对 于 Element, Attribute 和 Text K, 主键 是 
(docID,start) ,pathID 是 外 键 。 

每 一 个 不 同 的 标记 路 径 作为 Path 表 的 一 个 元 组 ,因此 它 能 够 有 效 处 理 
dp" x "操作 的 正则 路 径 表 达 式 查询 。 第 一 步 ,利用 字符 串 的 匹配 操作 ,能 够 
快速 地 查找 出 与 给 定 正则 路 径 表 达 式 相 匹 配 的 所 有 标记 路 径 的 标识 ; 第 二 
步 ,利用 这 些 路 径 标识 ,能 够 快速 地 查找 出 隶属 于 这 些 路 径 终端 的 值 ( 元 素 
结 点 ,文本 结 点 或 属性 结 点 ) o 

基于 XRel 模式 的 查询 实例 如 下 : 

对 于 XPath 4&if]//book[ price — 30. 00]/V/name, 对 应 的 SQL 查询 为 : 

Select V2. value From Element El, Path P1, Path P2, Path P3, Text V1, Text V2 

Where P1. pathexp like '# /4/book' and P2. pathexp like '# % /book # / price" 

And P3. pathexp like '# % /book/ # %/name' 
And El. pathID— P1 . pathID // 找 到 所 有 满足 "//book" 的 book 元 素 
And V1. pathID— P2. pathID // 找 到 所 有 满足 "//book/price" 的 price 值 
And V2. pathID— P3. pathID // 找 到 所 有 满足 "//book/name" 的 name ffi 
/* 包含 关系 检测 条 件 */ 
And El. start —Vl.start and El.end > V1. start 
//book 与 price 之 间 满 足 包含 关系 
And El. start <V2. start and El.end > V2.start 
//book 与 name 之 间 满 足 包含 关 系 
And cast( V1. value as float) 7 — 30.00 

2) XParent 模式 

香港 科技 大 学 Jiang Haifeng,Lu Hongjun 和 Wang Wei 等 基于 结 点 模 
型 映射 方法 提出 了 另 一 个 XML 数据 的 关系 存储 模式 , 称 为 Xpareni?? 。 
Xparent 通过 一 个 单独 的 Parent(parent-ID,child-ID) 表 来 反映 XML 文档 的 
模型 结构 ,并 根据 内 容 和 “结构 与 非 结 构 ” 来 划分 边 , 同 时 将 所 有 路 径 进 行 存 
储 , 因 此 ,XParent 模式 也 由 4 个 关系 表 组 成 : 
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LabelPah (pathID. length. pathexp) 

Parent (pid. cid) 

Element (pathID. did. ordinal) 

Data (pathID, did, ordinal. value) 

其 中 ,length 为 标记 路 径 (label-path) 的 长 度 , 即 标记 路 径 中 边 标 记 的 个 
数 ; pathexp 域 存储 标记 路 径 , 与 XRel 类 似 , 这 里 将 标记 路 径 中 的 “/” 震 换 
为 “./” 进 行 存储 ; did 为 XML 文档 中 元 素 结 点 的 标识 , 它 也 可 以 作为 以 该 
结 点 为 终端 的 数据 路 径 (data-path) 的 标识 ; pid, cid 分 别 为 XML 文档 的 数 
据 路 径 中 的 双亲 结 点 ,孩子 结 点 的 标识 。 

Parent 表 存 储 的 是 双亲 /孩子 关系 ,因此 ,为 了 检查 数据 路 径 需 要 进行 
连接 操作 。 为 了 加 速 这 种 处 理 , 可 以 不 用 Parent 表 , 而 改 用 Ancestor 表 来 
存储 祖先 /后 裔 关系 : 


Ancestor (did，ancestor，level) 


例如 ,元 素 (&9,&1,3) 表 示 8-9 结 点 的 曾祖 父 是 &1 结 点 。 

利用 Ancestor 表 能 够 快速 地 检测 结 点 之 间 的 祖先 /后 裔 关系 ,但 是 它 比 
Parent 表 需 要 更 多 的 空间 ,而 且 由 于 存在 元 余 信息 ,修改 起 来 代价 也 更 高 。 

XParent 模式 分 别 通过 LabelPath 表 和 Parent 表 来 支持 标记 路 径 和 数 
据 路 径 , 因 此 ,XParent 模式 既 具 有 基于 结 点 的 模型 映射 的 特点 ,又 具有 基于 
边 的 模型 映射 的 特点 。 

Parent 表 基 于 双亲 /孩子 关系 来 反映 XML 文档 的 核心 结构 , 它 也 能 够 
被 进一步 物化 为 Ancestor 表 来 支持 祖先 /后 裔 关系 。 由 于 XML 文档 中 的 
结 点 标识 也 可 以 用 来 标识 以 该 结 点 为 终端 点 的 数据 路 径 , 因 此 ,元 素 和 数据 
(文本 或 属性 ) 隶 属于 数据 路 径 。 

基于 XParent 模式 的 查询 实例 如 下 : 

对 于 XPath £t if] / /book[ price — 30. 00]//name, 对 应 的 SQL 查询 为 : 


Select D2. value 

From LabelPath LP1，LabelPath LP2, Data D1, Data D2, Ancestor Al, Ancestor A2 

Where LP1. pathexp like '. % /book. / price' and LP2. pathexp like '. % / book. 26 / name" 
And Dl.pathID—LPl.pathID // 找 到 所 有 满足 "//book/price" 的 price ffi 
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And D2. pathID— LP2. pathID // 找 到 所 有 满足 "//book//name" 的 name 值 
/ * 结构 关系 检测 条 件 * / 
And DI.did— A1. did 
And Al.level—1 // 限 定 为 price 的 双亲 层 
And D2. did= A2. did 
And Al.ancestor— A2.ancestor //price 的 双亲 是 name 的 祖先 (没有 限定 层次 ) 
And cast(D1. value as float) 二 一 30.00 

结 点 模型 映射 方法 需要 维护 的 是 XML 文档 树 的 结 点 信息 ,而 不 是 边 信 
息 。XRel 模式 通过 区 间 编 码 来 译 码 XML 文档 的 模型 结构 ( 即 包含 关系 )， 
它 的 优点 是 通过 0 连接 的 代价 比 等 值 连 接 要 高 得 多 ,这 是 因为 在 关系 数据 库 
中 并 没有 特殊 的 索引 机 制 来 支持 它 。 

XParent 模式 在 结构 上 类 似 于 XRel 模式 ,只 是 用 did 替代 了 [start， 
end]。 然 而 ,这 种 变化 使 得 XParent 模式 仅 需要 等 值 连接 ,而 XRel 模式 却 
需要 0 连接 ,因此 ,XParent 模式 能 够 基于 传统 的 索引 机 制 ( 如 B 树 索 引 ) ,得 
到 有 效 的 实现 。 


3. 结构 映射 方法 


J. Shamugasundaram 等 提出 了 根据 DTD 映射 关系 模式 的 存储 策 
MESI ,首先 需要 对 DTD 进行 适当 的 简化 ,然后 产生 DTD 图 及 元 素 图 ,再 根 
据 DTD 图 或 元 素 图 生成 关系 模式 ,最 后 将 符合 该 DTD 的 XML 文档 数据 装 
人 关系 数据 库 中 。 

1) 简化 DTD 并 生成 DTD 图 

XML DTD 的 元 素 说 明 可 以 是 任意 复杂 的 ,例如 ,如 下 的 元 素 说 明 是 正 
确 的 。 

<!ELEMENT a((b | c | e)?, (e? | Cf?.(b.b) x)) *) œ> (2-1) 

因此 ,在 将 DTD 映射 为 关系 模式 之 前 ,必须 对 一 些 复杂 的 DTD 进行 必 
要 的 简化 变换 。DTD 的 简化 变换 包括 三 种 类 型 。 

(D Flattening 变换 : 变换 每 一 个 嵌 套 定义 到 平坦 的 表示 ,使 二 元 操作 
“,” 和 “| ”不 出 现在 任何 操作 之 内 ,例如 : 


(el,e2) *--el*,e2* (el,e2) ? 一 el?,e2? (el| e2) 一 e1?,e2? 
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@ Simplification 变换 : 将 连续 的 多 个 一 元 操作 缩 简 为 一 个 一 元 操作 ， 
例如 : 

elx *—> el * el * ? 一 el 关 el? * 一 el 关 

© Grouping 变换 : 将 多 个 具有 相同 名 称 的 子 元 素 进行 聚合 ,形成 一 个 
子 元 素 , 例 如 : 

ee 

RO Pt E E 

A ei 

另外 ,所 有 的 “十 "操作 被 转换 成 “* "操作 。 例 如 式 (2-1) 可 以 被 简化 变 
HH: 

<! ELEMENT a(b* ,c?, e* , f*) > (2-2) 

一 个 DTD 图 表示 一 个 DTD 的 结构 ,图 的 结 点 是 DTD 中 的 元 素 、 属 性 
和 正则 路 径 运 算 符 ,每 一 个 元 素 在 图 中 出 现 且 仅 出 现 一 次 ,属性 和 操作 符 在 
DTD 图 中 出 现 的 次 数 与 它们 在 DTD 中 出 现 的 次 数 相同 ; 图 的 边 则 反映 
DTD 中 元 素 之 间 的 嵌 套 关系 ; 图 中 的 环 表 示 回 路 的 出 现 。 图 2-7 显示 的 是 
根据 一 个 DTD 所 产生 的 DTD 图 ,其 中 ,斜体 字 表示 的 是 根据 属性 生成 的 


pub 
| |a 
library * * editor 
article 
book . 
p di / BEN 六 id 
year y title editorID 2 
N * 


price 
author = name 


id 2 — — — email 
图 2-7 DTD 图 实例 
2) 根据 DTD 图 生成 关系 模式 


根据 一 个 DTD 图 生成 的 关系 模式 是 该 DTD 图 中 每 一 个 元 素 所 生成 的 
关系 模式 的 并 。 为 了 说 明 如 何 生成 一 个 元 素 的 关系 模式 ,需要 引入 元 素 图 
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的 概念 。 简 单 地 说 ,一 个 元 素 的 元 素 图 就 是 从 该 元 素 出 发 以 深度 优先 遍历 
DTD 图 的 过 程 中 所 生成 的 一 棵 树 。 如 果 遍 历 过 程 中 到 达 了 一 个 已 经 遍历 过 
的 结 点 , 则 表示 出 现 了 回路 ,回路 可 看 成 着 向 边 ,以 虚线 边 表示 , 且 该 条 路 线 
不 必 再 去 重复 遍历 。 

根据 DTD 图 生成 关系 模式 的 方法 有 : 基本 内 联 法 .共享 内 联 法 和 综合 
内 联 法 。 

CD 基本 内 联 法 

基本 内 联 法 根据 每 一 个 名 为 e 的 元 素 的 元 素 图 生成 一 个 同名 关系 e, 元 
素 图 中 根 结 点 e 的 所 有 后 裔 叶 结 点 均 内 联 到 该 关系 中 来 作为 一 个 属性 。 但 
下 列 两 种 情况 除外 : 

(D 一 个 * 或 十 结 点 的 直接 孩子 结 点 不 包括 在 该 关系 中 , 即 对 于 集合 值 
孩子 将 另外 生成 一 个 新 的 关系 ; 

© 产生 逆向 边 的 结 点 不 包括 在 该 关系 中 , 即 另 外 生成 一 个 新 的 关系 来 
处 理 回路 。 

在 生成 的 关系 模式 中 ,关系 的 属性 是 以 从 结 点 。 到 内 联结 点 的 路 径 来 命 
名 的 ; 每 一 个 关系 需要 有 一 个 ID 域 来 作为 该 关系 的 键 ; 对 于 * 或 十 结 点 的 
直接 孩子 结 点 以 及 带 回路 的 结 点 ,它们 所 生成 的 关系 还 需要 有 一 个 
parentID 域 来 作为 该 关系 的 外 键 。 基 本 内 联 法 将 产生 大 量 的 关系 ,并 且 会 
产生 大 量 的 数据 宛 余 ,因此 该 方法 基本 上 不 实用 的 。 

(2) 共享 内 联 法 

共享 内 联 法 使 每 一 个 元 素 结 点 出 现 且 只 出 现在 一 个 关系 中 。 它 按 如 下 
原则 来 判断 哪些 元 素 可 以 生成 独立 的 关系 : 

* DTD 图 中 入 度 大 于 1 或 等 于 0 的 元 素 结 点 生成 独立 的 关系 (模式 ); 

。 DTD 图 中 结 点 * 或 十 的 直接 后 继 元 素 结 点 生成 独立 的 关系 (模式 ); 

。 互 为 递归 的 入 度 均 为 1 的 元 素 结 点 ,其 中 之 一 生成 独立 的 关系 

(模式 ); 
。 其 余 的 结 点 均 生 成 关系 属性 。 
图 2-8 显示 的 是 根据 图 2-7 所 示 DTD 图 按 共享 内 联 法 所 产生 的 关系 模 
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式 。 共 享 内 联 法 与 基本 内 联 法 相 比 减 少 了 数据 宛 余 ,但 是 在 查询 时 却 增加 
了 许多 连接 操作 。 


Pub(pubID:integer, pub. library. isroot: boolean, pub. library:string) 

Book( bookID: integer, book. parentID: integer, book. parentCODE: integer, 
book. year: string, book. price. isroot : boolean, book. price: string) 

article ( articleID: integer, article. parentID: integer, article. parentCODE: 
integer, article. editorID: string) 

editor ( editorID: integer, editor. parentID: integer, editor. parentCODE: 
integer, editor. id: string) 

title(titleID: integer, title. parentID: integer, title. parent CODE ; integer, title: 
string) 

author ( authorID: integer, author. parentlD: integer, author. parentCODE: 
integer, author. id: string) 

name( namelD: integer, name. parentlD: integer, name. parentCODE: integer, 
name: string) 

email( email ID: integer, email. parentID: integer, email. parent CODE: integer, 


email: string) 


图 2-8 共享 内 联 法 产生 的 关系 模式 


将 元 素 X 内 联 到 元 素 Y 所 产生 的 关系 中 ,如 果 有 一 个 XML 文档 是 以 X 
元 素 为 根 , 则 在 查询 时 会 产生 问题 。 为 了 解决 这 种 元 素 的 查询 ,在 关系 中 引 
入 一 个 X. isroot 域 ,如 book 关系 中 的 book. price. isroot 域 。 

在 XML 文档 中 ,有 些 元 素 的 双亲 并 不 是 唯一 的 。 例 如 ,author 元 素 的 
双亲 可 能 是 book 元 素 ,也 可 能 是 article 元 素 。 因 此 ,在 非 根 元 素 所 产生 的 
关系 中 还 需要 增加 一 个 parentCODE 域 , 以 指示 双亲 的 类 型 ,以 便 查询 时 进 
行 正确 的 连接 。 

(3) 综合 内 联 法 

在 共享 内 联 法 的 基础 上 ,将 所 有 入 度 大 于 1 的 元 素 结 点 也 内 联 进入 父 结 
点 所 生成 的 关系 中 ,但 是 带 回路 的 结 点 以 及 结 点 * 和 十 的 直接 后 继 结 点 除 
外 。 综 合 内 联 法 的 出 发 点 是 充分 汲取 基本 内 联 法 和 共享 内 联 法 的 优点 , 克 
服 其 缺点 。 图 2-9 显示 的 是 根据 图 2-7 所 示 DTD 图 按 综合 内 联 法 所 产生 的 
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Pub( pubID: integer, pub. library. isroot: boolean, pub. library:string) 
Book( bookID: integer, book. parentID: integer, book. parentCODE: integer, 
book. year:string, 
book. price. isroot: boolean, book. price: string, book. title. isroot: 
Boolean, book. title:string) 
article ( articleID: integer, article. parentID: integer, article. parent CODE: 
integer, article. editorID: string, 
article. title: string, article. author. id: string, article. author. name: 
string, article. author. email: string) 
editor ( editorID: integer, editor. parentlD: integer, editor. parentCODE: 
integer, editor. id: string, 
editor. name: string, editor. email: string) 
author ( authorID: integer, author. parentlD: integer, author. parentCODE: 
integer, author. id: string, 
author. name. isroot: Boolean, author. name: string, author. email. isroot: 


Boolean, author. email: string) 


图 2-9 综合 内 联 法 产生 的 关系 模式 


对 于 XPath 查询 /pub/article[ title" A Query Language for XML" ]/ 
author/name, 基 于 共享 内 联 法 所 对 应 的 SQL 查询 为 : 


select N.name 
from pub P, article AR, title T, author AU, name N 
where P. pubID— AR. [article. parentID] 

and AR.articleID— T. [title. parentID] 

and T. [title. parent CODE] —1 

and AR.articleID— AU. [author. parentlD] 

and AU. [author. parent CODE] —1 

and AU.authored— N. [name. parentID] 

and N. [name. parentCODE] —0 

and T.title— ' A Query Language for XML' 


其 中 ,条 件 T. [title. parentCODE] — 1: 隐 含 着 仅 查 找 article 75 2€ CHE 
book 26 E) HB title 子 元 素 ; 条 件 AU. [author. parentCODE ] — 1 隐 含 着 仅 
查找 article 元 素 的 author 子 元 素 ; 条 件 N. [ name. parentCODE]=0 隐 含 
着 仅 查 找 author 元 素 ( 非 editor TR) 的 name FICK. 

(4) 共享 内 联 法 与 综合 内 联 法 的 比较 

共享 内 联 法 与 综合 内 联 法 各 有 优 缺 点 ,如 上 面 的 实例 所 示 ,综合 内 联 法 
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可 以 减少 SQL 查询 中 连接 操作 的 数量 。 但 是 ,共享 内 联 法 通常 需要 的 SQL 
子 查询 更 少 。 例 如 ,对 于 //title、//name、//aythor/name 之 类 的 查询 ,综合 
内 联 法 需要 多 个 SQL 子 查询 ,而 共享 内 联 法 仅 需 要 一 个 SQL 查询 。 


2.3.2 X-RESTORE 数据 模型 


一 个 XML 文档 可 以 被 建 模 为 一 棵 树 ,因此 ,一 个 XML 文档 的 集合 可 以 
被 建 模 为 一 个 森林 (forest) 。 一 个 根 结 点 是 文档 结 点 的 树 指 向 一 个 XML 文 
Ri ,一 个 根 结 点 是 非 文档 结 点 的 树 指 向 一 个 XML 文档 片段 (fragment) 。 因 
此 ,一 个 XML 查询 既 可 以 在 一 个 XML 文档 树 或 文档 森林 上 进行 ,也 可 以 在 
一 个 XML 文档 片段 或 森林 片段 上 进行 。 

XML 文档 中 的 字符 数据 有 两 种 类 型 : 文本 结 点 和 简单 类 型 值 (simple- 
typed values) 。 一 个 文本 结 点 表示 一 个 连续 的 字符 信息 项 的 字符 串 ,并且 不 
允许 其 他 文本 结 点 作为 它 的 直接 兄弟 结 点 。 简 单 类 型 值 是 一 个 XML 模式 
的 简单 类 型 和 该 类 型 的 值 的 总 称 。 一 个 叶子 元 素 结 点 的 文本 内 容 可 以 被 说 
明 为 一 个 简单 类 型 值 , 例 如 : 一 个 整数 57、 一 个 日 期 10/01/02 、 一 个 单价 的 
序列 (21. 5,23. 6,28.3)。 查 询 数据 模型 逻辑 上 同时 支持 文本 结 点 和 简单 类 
型 值 , 但 它 并 没有 指定 两 者 都 必须 在 物理 上 实现 。 一般 情况 下 ,物理 上 的 实 
现 可 以 仅 选择 文本 结 点 ,并 按 要 求 来 构造 简单 类 型 值 。X-RESTORE 就 是 
按照 这 种 方式 实现 的 , 即 所 有 XML 的 叶子 元 素 结 点 的 内 容 或 属性 结 点 的 值 
都 作为 字符 串 类 型 进行 存储 ,需要 时 再 将 它们 按 要 求 转换 为 简单 类 型 值 , 如 
整 型 .日 期 型 或 简单 类 型 的 序列 等 。 

下 面 给 出 一 个 XML 文档 树 模型 的 形式 化 定义 。 这 里 ,忽略 了 命名 空间 
结 点 、 处 理 指 令 结 点 和 注释 结 点 。 

定义 2-1 一 个 XML 文档 是 一 个 有 序 树 , 记 为 T= 过 V,E,r,label,rank>。 
其 中 ,V 是 所 有 结 点 的 集合 ,ESV XV 是 边 的 集合 ,rEV 是 文档 根 结 点 ， 
并 且 

(1)V==rUVe UVaUVzr. 其 中 Ve、Va 和 Vz 分别 表示 元 素 、 属 性 和 文 
本 结 点 的 集合 。 
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(2) ESE, U Er U EAU Ez. Ki rf E, {r} X Ve 是 根 边 的 集合 , Es 导 
Vg XVe 是 元 素 边 的 集合 ,EaASVeXEA 是 属性 边 的 集合 ,ErSSVe XVr 是 文 
本 边 的 集合 。 这 里 , 根 边 是 文档 根 结 点 指向 ( 根 ) 元 素 结 点 的 边 ,元 素 边 、 属 
性 边 和 文本 边 分 别 是 从 元 素 结 点 指向 子 元 素 结 点 的 边 、 指 向 属性 结 点 的 边 
和 指向 文本 结 点 的 边 。 元 素 边 与 文本 边 又 统称 为 孩子 边 。 

(3) label—labelg U label4 U labelr 。 

O 函数 labele: Ve><integer, string. string>. EATR 8 CT 
一 个 三 元 组 ,分 别 表示 该 元 素 结 点 的 对 象 标识 .元 素 标 记名 和 结 点 类 型 。 结 
点 类 型 的 值 是 EE、ET、EM 和 EN, 它们 分 别 代表 元 素 结 点 的 内 容 是 子 元 素 、 
文本 、 子 元 素 与 文本 的 混合 或 空 元 素 。 

© PR labela: Va 一 二 integer,string,string,string 过。 给 每 个 属性 结 
点 赋予 一 个 四 元 祖 ,分 别 表示 该 属性 结 点 的 对 象 标 识 、 属 性 名 、 属 性 值 (字符 
串 值 ) 和 属性 值 的 类 型 。 

© AX labelz; Vzr 一 一 integer,string,string 二 。 给 每 个 文本 结 点 赋予 
一 个 三 元 组 ,分 别 表示 该 文本 结 点 的 对 象 标识 、 文 本 结 点 的 内 容 ( 字 符 串 值 ) 
和 内 容 的 类 型 。 

(4) 函数 rank: V 一 integer。 给 每 个 结 点 赋予 一 个 整数 ,表示 该 结 点 的 
文档 序号 。 结 点 的 文档 序号 在 一 个 文档 内 唯一 , 它 反映 了 在 先 序 遍 历 文档 
树 时 该 结 点 的 出 现 次 序 。 对 于 一 个 元 素 结 点 而 言 , 这 里 规定 它 所 拥有 的 
属性 结 点 的 文档 序号 必须 小 于 它 的 内 容 结 点 ( 子 元 素 结 点 和 文本 结 点 ) 
的 文档 序号 。 由 于 元 素 结 点 中 所 包含 的 各 个 属性 结 点 之 间 不 区 分 次 序 ， 
因此 ,对 于 某 元 素 结 点 所 包含 的 各 属性 结 点 的 文档 序号 的 先后 无 关 
紧要 。 

例如 ,对 于 图 2-10 所 示 的 XML 文档 片段 ,第 2 节 第 1 条 的 定义 数据 模 
型 如 图 2-11 所 示 。 假 设 对 XML 文档 ( 树 ) 进 行 先 序 遍历 ,每 个 结 点 得 到 一 
个 先 序 遍历 序号 ,可 以 将 此 先 序 遍历 序号 作为 结 点 的 对 象 标识 。 由 于 结 点 
的 先 序 遍历 序号 已 经 反映 了 结 点 之 间 的 文档 顺序 ,因此 , 结 点 的 先 序 遍历 序 
号 同时 也 可 作为 结 点 的 文档 序号 。 
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所 book id—1658 year— 2003— 
title XML Databases / title 
< price currency — "RMB" money —32.5/7 
abstract> Researches on XML database system primarily include <bold> 
index structure / bold 
of XML data, efficient implementation of < bold» structural joins —/ 
bold-"and optimization techniques of XML queries etc. 
abstract 
</book> 


图 2-10 XML 文档 片断 


图 2-11 XML 文档 片断 的 数据 模型 实例 


这 里 ,元 素 结 点 的 集合 Ve = {1,4,6,9,11,14), 属 性 结 点 集合 V = 
{2,3,7,8) ,文本 结 点 的 集合 V. (5.10.12,13.15,16); 根 边 的 集合 E, = 
(r1) ,元 素 边 的 集合 Eg — (194.19 6.1—9.9—11.9— 14) ,属性 边 的 集 
合 E,—(1—2,1—3,6—7,6—8) ,文本 边 的 集合 Ez — (45,910,913, 
9—16,11—12,14—15) ; 函数 label 的 映射 结果 如 表 2-2 所 示 o 


2.3.3 一 种 基于 关系 的 XML 数据 索引 和 查询 


为 了 有 效 实现 对 文档 树 中 任意 两 个 结 点 对 之 间 的 祖先 /后 裔 关系 、 双 
亲 / 和 孩子 关系 以 及 文档 位 置 关 系 的 检测 ,以 加 速 路 径 表 达 式 的 计算 ,同时 实 
现 按 关键 字 搜 索 XML 文档 。 下 面 给 出 一 种 XML 数据 的 索引 结构 , 称 为 扩 
展 先 序列 表 (Extended Preorder List) 。 甚 基本 思想 是 : 对 XML 文档 树 中 
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表 2-2 函数 label 的 映射 结果 


结 点 类 型 | 结 点 编号 函数 label 的 映射 结果 
和 «1,"book","EE"— 
4 «A,"title","ET"— 
— 6 <6," price" "EN" > 
9 <9, "abstract" , "EM" > 
11 «11,"bold","ET"— 
14 «M."bold","ET"— 
z «2, id,"1658" , ID— 
3 <3, year."2003", integer 
属性 结 点 7 <7, currency, "RMB", string 
8 <8, money, "32.5", decimal 
5 <5,"XML Databases", string> 
i < 10," Researches on XML database system primarily 
include", string 
XA 12 «2, “indet structure" , strig? : l 
13 <13, "of XML data, efficient implementation of", string 
15 <15,"structural joins", string 
i6 — 16." and optimization techniques of XML queries etc. ". 
string 


TI EAE E T EJF 388 I CRI ZR E UG cl Da y^ E xc LE AY 5 AO 9" Ji s JF 
历 序号 ,并 将 这 些 对 象 的 扩展 先 序 遍历 序号 按 升序 进行 列表 。XML 文档 树 
中 的 对 象 包括 元 素 结 点 ` 属 性 结 点 以 及 属性 值 和 文本 结 点 内 容 中 的 “关键 
字 ”。 下 面 介绍 具体 的 处 理 方法 。 

CD 对 于 所 有 具有 相同 元 素 标记 名 Tag 的 元 素 结 点 建立 一 个 元 素 索引 表 
( 即 扩展 先 序列 表 )Elem_Tag ,该 索引 表 中 的 每 一 个 记录 存储 该 结 点 的 一 个 八 
元 组 二 docID，order, maxOrder. depth. pathID. parentOrder. parentMax. 
ssIndex>. rh .docID 是 该 结 点 所 在 文档 的 文档 标识 ; order 是 该 结 点 的 
扩展 先 序 遍 历 序号 ; maxOrder 是 以 该 结 点 为 根 的 子 树 中 所 包含 的 所 有 元 素 
结 点 、 属 性 结 点 以 及 文本 结 点 和 属性 值 中 的 关键 字 的 最 大 order, 以 反映 结 点 
之 间 的 祖先 /后 裔 关系 ; depth 是 该 结 点 在 文档 树 中 所 处 的 层次 ,以 反映 祖 
先 /后 裔 关系 中 的 能 套 层 数 关系 ; pathID 是 从 根 开始 到 该 结 点 的 路 径 表 达 
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式 的 标识 ,以 支持 对 简单 绝对 路 径 表 达 式 按 路 径 索 引 的 方法 ( 即 路 径 法 ) 进 
行 计算 ; parentOrder 和 parentMax 分 别 是 该 结 点 的 双亲 元 素 结 点 的 order 
和 maxOrder,parentOrder 用 来 有 效 地 支持 结 点 之 间 的 双亲 /孩子 关系 、 左 见 
弟 / 右 见 弟 关系 的 计算 ,parentMax 用 来 加 速 结构 连接 的 计算 ; ssIndex 是 该 
结 点 在 它 的 同名 兄弟 结 点 中 所 处 的 位 置 序号 ,以 便 有 效 地 实现 按 位 置 查询 
同名 兄弟 的 操作 。 

(2) 对 于 所 有 具有 相同 属性 名 Name 的 属性 结 点 建立 一 个 属性 索引 表 
Attr_Name, 该 索引 表 中 的 每 一 个 记录 存储 该 结 点 的 一 个 七 元 组 二 docID， 
order, maxOrder, depth, pathID, parentOrder. parentMax>。 

为 了 便于 文档 的 修改 , 结 点 的 order 取 值 并 不 是 连续 的 ,要 为 它 的 可 能 
的 后 裔 对 象 的 插入 预 留 序号 的 空间 ,因此 被 称 为 “扩展 ? 先 序 遍 历 序号 。 同 
时 MaxOrder 的 取 值 也 不 要 求 是 以 该 结 点 为 根 的 子 树 中 所 包含 的 所 有 元 素 
结 点 ,属性 结 点 以 及 文本 结 点 和 属性 值 中 关键 字 的 最 大 order, 它 的 取 值 可 以 
是 一 个 不 小 于 该 结 点 为 根 的 子 树 中 所 包含 的 所 有 对 象 的 最 大 order 的 任意 
一 个 整数 ; 该 结 点 之 后 的 第 一 个 结 点 的 order 值 只 要 大 于 该 结 点 的 MaxOrder 
值 即 可 。 

C3) 对 于 所 有 属性 值 和 文本 结 点 中 出 现 的 每 一 个 关键 字 Keyword 建立 
一 个 关键 字 索 引 表 Word Keyword ,该 索引 表 中 的 每 一 个 记录 存储 该 关键 字 
的 一 个 三 元 组 二 docID, order, depth>, JE'B.doclD 是 该 关键 字 所 在 文档 
的 文档 标识 ; order 是 该 关键 字 的 扩展 先 序 遍历 序号 ; depth 是 该 关键 字 在 
文档 树 中 所 处 的 层 数 ,以 反映 它 是 直接 属于 哪 一 个 属性 结 点 或 双亲 元 素 
结 点 。 

关键 字 索 引 表 Word Keyword 的 作用 是 有 效 地 实现 按 关 键 字 搜索 。 同 
样 , 为 了 提高 处 理性 能 , 按 相 同 的 关键 字 Keyword 分 别 组 织 一 个 关键 字 索 
引 表 。 

(4) 对 于 XML 文档 中 所 有 从 根 开始 到 另 一 个 元 素 或 属性 的 路 径 建 立 
一 个 路 径 索引 表 Path ,该 索引 表 中 的 每 一 个 记录 存储 该 路 径 的 一 个 二 元 组 
<pathID, pathExp 之 。 其 中 pathID 是 该 路 径 的 标识 ; pathExp 是 该 路 径 的 
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路 径 表 达 式 ,这 种 路 径 表 达 式 是 形 如 /namel/name2/…/namek 或 /namel/ 
name2/…/@namek 的 字符 串 。 为 了 实现 在 RDBMS 中 对 一 个 简单 绝对 路 
径 表 达 式 进行 串 匹 配 操作 , 它 的 存储 形式 用 “#/” 来 代替 “/”, 并 假设 属性 结 
点 的 值 或 文本 结 点 的 内 容 的 路 径 表 达 式 与 对 应 的 属性 结 点 或 双亲 元 素 结 点 
的 路 径 表 达 式 相同 。 路 径 索 引 的 作用 是 加 速 长 的 简单 绝对 路 径 表达 式 的 
计算 。 

(5) 还 要 建立 一 个 Document 索引 表 , 索 引 表 的 每 一 个 记录 与 一 个 
XML 文档 相对 应 ,用 来 存储 docID (文档 标识 )、URL (文档 所 在 位 置 的 
URL) 以 及 其 他 一 些 与 该 文档 相关 的 信息 ; 一 个 Name 索引 表 , 索 引 表 的 每 
一 个 记录 与 XML 文档 中 的 一 个 元 素 标 记 或 属性 名 相对 应 ,用 来 存储 
nameID( 名 字 标 识 ) .name( 标 记名 或 属性 名 ) 以 及 其 他 一 些 与 该 名 字 相 关 的 
信息 。 

对 于 XML 文档 森林 中 的 任意 一 个 结 点 n,region(n) 表 示 区 间 [Lorder(n)， 
MaxOrder(n) ]; 任意 一 个 词 w,region(w) 表 示 区 间 [order(w)，MaxOrder 
(wj. 

利用 XML 数据 的 索引 结构 ,文档 树 中 任意 两 个 对 象 之 间 的 祖先 /后 裔 、 
双亲 /孩子 关系 ,任意 两 个 元 素 结 点 之 间 的 之 前 /之 后 关系 、 左 兄弟 / 右 见 弟 
关系 .分别 可 以 通过 命题 2-1 命题 2-2 .命题 2-3 和 命题 2-4 直接 进行 判断 。 

命题 2-1 对 于 一 个 XML 文档 树 中 的 任意 两 个 对 象 x 和 y, 对 象 y 是 对 
象 x 的 后 裔 , 当 且 仅 当 region Cx). contains region(y)。 这 里 region (x) 
contains region(y) 意 味 着 docIDCx) — docID(Cy). and order(x)< 一 orderCy) 
and order( y) X — maxOrder(x) , 

命题 2-2 对 于 一 个 XML 文档 树 中 的 任意 两 个 对 象 x 和 y, 对 象 y 是 对 
象 x 的 孩子 , 当 且 仅 当 docID(x) = docID(y) and order Cx) = parentorder 
(y) ,或 者 region (x) directly contains region (y) (B region (x) contains 
region(y) and depth(x) —depth(y) — 1), 

命题 2-3 对 于 一 个 XML 文档 树 中 的 任意 两 个 元 素 结 点 x 和 y, 按 文档 
顺序 , 结 点 x 是 位 于 结 点 y 之 前 (或 之 后 ) , 当 且 仅 当 docID(Cx) = docIDCy) 
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and maxOrder( x) order(C y) C3 d$ order(x) 7 maxOrder(y)) 。 

命题 2-4 对 于 一 个 XML 文档 树 中 的 任意 两 个 元 素 x 和 y, 按 文档 顺 
序 , 结 点 x 是 位 于 结 点 y 之 前 (或 之 后 ) 的 兄弟 结 点 , 当 且 仅 当 docID(x) = 
docIDCy) and maxOrder ( x) < order (y) Corder x) œ> maxOrder (y) and 
parentOrder( x) — parentOrderCy)) 。 

图 2-12 所 示 的 是 一 个 XML 文档 片断 和 它 的 DTD 片断 ; 表 2-3 反映 的 
是 该 XML 文档 的 扩展 先 序 列表 的 编码 结果 ,包括 元 素 和 属性 结 点 的 
Corder, maxOrder，depth) 以 及 关键 字 的 (order，depth) 的 编码 结果 。 

<book editor= "Tom Smith "> <!ELEMENT book(title, pres s?, author+)> 


«title»Database System Concepts</title> <!ATTLIST book editor CDATA IMPLIED» 


«author id- “102 > <!ELEMENT author(name, contact?) 
*name?Kaily Jone</name> 


</author> <!ATTLIST author id #REQUIRED> 


«author id=" 103"» <!ELEMENT title (#PCDATA)> 
<name>Silen Smith Jone</name> <!ELEMENT press (#PCDATA)> 
</author> <!ELEMENT name (&PCDATA )» 
</book> <!ELEMENT contact (#PCDATA)> 


(a) XML 文档 片段 (b) DTD 片 段 
图 2-12 XML 文档 片断 和 它 的 DTD 片断 
表 2-3 XML 文档 片断 的 扩展 先 序 列表 的 编码 


(a) 元 素 或 属性 结 点 的 (b) 关键 字 的 
(order, maxOrder，depth) 编 码 Corder, depth) 编码 
元 素 或 属性 名 (order, maxOrder. depth) 关键 字 Corder. depth) 
book (1.150.0) Tom (3.2) 
editor (2,6. Smith (4,2) 
title (27.1) Database iA 
author (39.66.1) System Ms 

id (40,40,2 Concepts (10,2) 
Kaily (42.3) 

name (41.45.2) dane (43.3) 
author (67.94.1) Silen (70,3) 
id (68.68.2) Smith C1.3) 
name (69.73.25 jone (72,3) 
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图 2-13 所 示 的 是 设计 用 来 存储 XML 文档 的 关系 模式 , 称 为 X- 
RESTORE(XML’S Relational Storage and Retrieval) U9 , SAiM Bj] AT: 


Document( docID, URL, ... ) 

Name(namelID, name, ... ) 

Path( pathID, pathExp, …) 

Elem _ tag ( docID, order, maxOrder, depth, attrID, nodeType, pathID, 
parentOrder, parentMax, ssIndex) 

Attr Name(docID, order, maxOrder, depth, pathID, parentOrder, parentMax) 
Word keyword(docID, order, depth) 

Value(docID, order, afterOrder, value, valueType, pathID) 


Structure( docID, order, maxOrder, depth, nodeType, nameID, parentOrder, 


parentMax) 


图 2-13 XML 文档 的 关系 存储 模式 


(D) 对 于 Elem, Tag 表 ,nodeType 列 存储 的 是 元 素 结 点 的 类 型 , 它 的 取 
值 分 别 是 EE, ET, EM 或 EN, 分 别 代表 元 素 结 点 的 内 容 是 子 元 素 、 文 本 、 子 
元 素 与 文本 的 混合 或 空 元 素 ; attrID 列 存储 元 素 结 点 的 ID 类 型 的 属性 值 ， 
这 样 安排 是 为 了 有 效 地 实现 按 ID 属性 来 精确 定位 ,如 有 效 地 实现 解除 引用 
(dereference) 操 作 “ 王 二 ”等 。 

(2) Value 表 用 来 存储 XML 文档 的 内 容 , 即 所 有 文本 结 点 的 内 容 及 属 
性 结 点 的 值 。 在 X-RESTORE 中 ,所 有 属性 值 和 文本 内 容 都 是 以 字符 串 的 
形式 进行 存储 的 ,但 查询 经 常 需要 转换 字符 串 到 其 他 的 带 有 更 多 语义 信息 
的 数据 类 型 。 因 此 ,Value 表 中 的 valueType 列 就 是 用 来 说 明 属 性 值 或 文本 
内 容 的 原本 数据 类 型 的 。Order 列 存储 包含 该 属性 值 或 文本 内 容 的 属性 结 
点 或 元 素 结 点 的 order。 对 于 EM 类 型 的 元 素 结 点 而 言 ,一 个 序号 为 order 
的 元 素 结 点 可 能 包含 多 个 文本 内 容 串 ,但 每 一 个 文本 内 容 必 然 被 安排 在 本 
元 素 结 点 或 它 的 某 个 子 元 素 结 点 之 后 出 现 , 因 此 ,afterOrder 列 就 是 存储 这 
种 用 于 标识 文本 内 容 串 所 在 位 置 的 元 素 结 点 序号 。 

(3) Structure 表 用 来 存储 所 有 元 素 结 点 和 属性 结 点 的 扩展 先 序 列表 ， 
即 文档 的 总 索引 。 其 中 ,通过 namelD 列 可 以 从 name 表 中 获得 每 一 个 元 素 
结 点 的 标记 名 和 属性 结 点 的 属性 名 ; nodeType 列 存储 的 是 结 点 类 型 , 它 除 
了 上 述 已 说 明 的 元 素 结 点 类 型 的 取 值 之 外 ,再 加 上 一 个 取 值 A, 表 示 结 点 的 
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类 型 是 属性 结 点 。 建 立 该 表 的 目的 是 为 了 有 效 地 实现 XML 文档 的 结构 查 
询 以 及 查询 结果 的 文档 树 片段 的 重 构 。 例 如 ,对 于 一 个 给 定 的 元 素 , 查 找 它 
的 所 有 孩子 .后 裔 或 属性 结 点 。 

(4) 关系 表 中 带 下 划 线 的 属性 为 码 属 性 。 关 系 表 都 按 码 属性 建立 聚集 
索引 ( 即 主 索引 ) ,以 加 快 查找 的 执行 速度 。 另 外 ,关系 表 Elem_Tag、Attr_ 
Name 和 Value 还 要 按 pathID 建立 辅助 索引 ; XAK Elem, Tag 还 要 按 
(docID,attrID) 建 立 辅助 索引 。 

在 对 XML 的 简单 绝对 路 径 表达 式 进行 查询 处 理 时 ,首先 将 查询 路 径 表 
iki /m"//"5 39H" e P187 2 6 / 进行 蔡 换 ; 然后 将 替换 后 得 到 的 
路 径 表 达 式 在 path 表 的 pathExp 列 上 进行 字符 串 匹 配 ; 最 后 将 匹配 得 到 的 
结果 与 路 经 表达 式 中 最 后 一 个 元 素 或 属性 所 对 应 的 Elem_Tag、Attr_Name 
或 Value 等 关系 进行 等 值 连接 。 这 种 表达 式 的 查询 计算 方法 为 路 径 法 。 


2.4 纯 XML 数据 库 和 使 能 XML 数据 库 技术 的 比较 


使 能 XML 数据 库 主要 是 以 关系 数据 库 为 主 ,因此 我 们 首先 对 传统 的 关 
系数 据 库 和 XML 数据 库 进 行 对 比 。 关 系数 据 库 的 逻辑 结构 是 单一 的 关系 
表 , 而 XML 数据 库 的 逻辑 结构 是 树 ; 关系 数据 库 中 涉及 的 主要 操作 是 表 的 
连接 ,而 XML 数据 库 中 的 主要 操作 是 路 径 的 匹配 ; 关系 数据 库 中 的 存储 粒 
度 就 是 元 祖 ,而 XML 数据 库 中 的 存储 粒度 却 是 多 种 多 样 ,常见 的 有 结 点 级 、 
子 树 级 等 ; 关系 数据 库 中 数据 的 更 新 一 般 只 会 影响 被 作用 的 记录 ,而 XML 
数据 库 中 数据 的 更 新 除了 会 影响 当前 记录 外 可 能 还 会 影响 其 他 记录 (比如 
父 结 点 的 结构 改变 ,势必 会 改变 子 结 点 的 结构 ); 关系 数据 库 中 对 数据 的 更 
新 就 是 修改 其 内 容 , 在 XML 数据 库 中 既 有 对 结 点 内 容 的 更 新 ,也 有 对 文档 
结构 的 更 新 ; 关系 数据 库 中 对 数据 的 访问 总 是 遵循 表 - 元 祖 - 属 性 的 顺序 ,而 
XML 数据 库 中 对 数据 的 访问 一 般 是 自 上 而 下 路 径 导航 .但 也 有 时 是 自 下 而 
上 (考虑 XPath 的 轴 ancestor 和 parent), 有 时 是 平行 的 (如 XPath 的 
following-sibling 轴 等 ), 有 时 又 是 毫 无 特征 的 转 跳 ( 考 虑 XML 文档 的 
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IDREF 属性 ?等 。 总 之 关系 数据 库 与 XML 数据 库 在 结构 和 操作 方面 有 很 
多 不 同 , 使 得 纯 XML 数据 库 和 使 能 XML 数据 库 在 实现 技术 上 存在 差异 , 主 
要 体现 在 以 下 几 个 方面 : 


1. 系统 体系 结构 的 不 同 


一 个 典型 的 纯 XML 数据 库 系统 的 体系 结构 如 图 2-14 所 示 。 


XML Query 应 用 程序 XML 数据 | 
外 接 访问 接口 
查询 分 解 
H HEA 
查询 优化 务 — —- E 
i 和 维护 
查询 执行 B 


TERURE | 索引 管理 ] ciem 


Ed Eod Fd 


存储 管理 (包括 缓冲 区 管理 ) 


Ts 
图 2-14 £k XML 数据 库 系 统 的 体系 结构 


不 同 的 纯 XML 数据 库 系统 的 体系 结构 是 不 同 的 ,但 至 少 应 该 包含 存储 
管理 ,索引 管理 ,查询 处 理 以 及 数据 导入 等 模块 ,而 一 个 完备 的 纯 XML 数据 
库 还 应 该 包含 事务 管理 、 并 发 控制 .恢复 技术 等 ,并 且 应 该 提供 良好 的 更 新 
机 制 ,此 外 ,还 应 有 相应 的 应 用 程序 编程 接口 和 友好 的 用 户 使 用 界面 。 

一 个 基于 关系 数据 库 的 XML 使 能 数据 库 系统 体系 结构 如 图 2-15 
所 示 。 
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图 2-15 基于 关系 数据 库 的 XML 使 能 数据 库 体系 结构 


从 图 2-15 中 可 以 看 出 XML 使 能 数据 库 可 以 充分 利用 关系 数据 库 成 熟 
的 数据 管理 和 查询 及 事务 管理 技术 ,只 是 外 加 XML 数据 管理 的 包装 
(wrapper) 即 可 。 将 XML 数据 存储 在 关系 数据 库 中 会 给 数据 管理 和 查询 处 
理 带 来 好 处 ,关系 数据 库 管理 系统 提供 了 强大 的 查询 和 修改 数据 的 能 力 , 使 
得 可 以 利用 在 过 去 的 版 本 上 所 进行 的 投资 ,就 如 同 基于 成 本 的 优化 和 数据 
存储 领域 一 样 。 例 如 ,关系 数据 库 中 的 索引 技术 已 经 广为人知 ,而 且 已 经 扩 
展 到 用 于 索引 XML 数据 ,这 样 就 可 以 使 用 基于 成 本 的 决策 来 优化 查询 。 而 
纯 XML 数据 库 系统 必须 提供 相应 的 数据 管理 .索引 管理 及 事务 管理 功能 ， 
比 使 能 数据 库 系 统 复杂 得 多 。 


2. 数据 存储 策略 的 不 同 


XML 文档 本 质 是 序列 化 数据 。 序 列 化 数据 通常 采用 平面 文件 的 形式 ， 
即将 每 一 个 XML 文档 分 别 存 储 在 一 个 文本 文件 里 ,并 且 实现 一 个 查询 引 
5E , 当 查 询 被 执行 的 时 候 ,XML 文件 被 解析 成 驻 留 在 内 存 的 一 棵 树 。 只 要 
查询 计算 还 需要 树 中 的 节点 ,这 棵 树 就 必须 驻 留 在 内 存 里 。 一 般 来 说 ,解析 
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的 时 间 左 右 着 查询 计算 的 时 间 , 但 是 这 种 方法 慢 得 令 人 无 法 接受 。 为 了 提 
高 这 种 方法 的 可 用 性 ,必须 建立 以 下 索引 : 利用 XML 元 素 在 文本 文件 中 的 
偏 移 量 作为 ID ,建立 从 标记 tag(Parent_off-set,Tag) 映 射 到 子 偏 移 量 Child 
offset 的 路 径 索 引 以 及 从 标记 tag (Child_offset, Tag) 映射 到 父 偏 移 量 
Parent. offset 的 反 向 路 径 索 引 , 这 两 个 索引 非常 有 利于 遍历 XML 文档 或 在 
XML 文档 中 进行 导航 。 而 其 他 的 索引 建立 从 标记 值 (Tagname,Value) 或 属 
性 值 (Attribute_name,Attribute_value) 到 元 素 偏 移 量 Element_offset 的 映 
射 , 这 些 索 引 有 助 于 计算 查询 中 的 选择 条 件 ( 谓 词 )。 查 询 引擎 可 以 利用 这 
些 索引 检索 与 查询 相关 的 XML 文件 的 片段 , 极 大 地 减少 了 解析 时 间 。 平 面 
文件 数据 库 最 大 优点 就 是 容易 实现 ,而 且 不 需要 使 用 数据 库 系 统 和 存储 管 
理 器 。 但 是 ,利用 平面 文件 存储 XML 文档 也 有 以 下 缺点 : 

(1) 每 次 访问 XML 文档 时 都 需要 解析 它 ; 

(2) 在 查询 处 理 期 间 , 整 个 被 解析 的 文件 都 必须 驻 留 在 内 存 里 ; 

(3) 为 了 部 分 解决 上 述 两 个 问题 ,可 以 在 XML 文档 上 建立 外 部 索引 。 
但 当 XML 文档 被 更 新 时 ,索引 是 难以 维护 的 。 

除了 平面 文件 以 外 ,还 可 以 将 XML 文档 存储 在 传统 的 关系 数据 库 系 统 
里 。 最 近 的 研究 成 果 说 明了 如 何 将 XML 文档 映射 并 存储 到 关系 数据 库 系 
统 中 。 这 种 方法 的 缺点 是 当前 关系 数据 库 系统 与 XML 的 负载 不 协调 ,而 且 
通过 诸如 SQL 的 接口 访问 XML 数据 会 招致 与 存储 无 关 的 额外 负担 。 

利用 关系 的 DTD 方法 。 如 果 描 述 XML 文档 模式 的 DTD 图 中 包含 环 ， 
则 必须 用 一 个 独立 的 表 来 打破 这 个 环 。 在 这 种 情况 下 ,XML 数据 库 的 索引 
可 以 完全 建立 在 上 述 各 个 关系 表 上 。 

利用 关系 的 边 的 方法 。 在 Edge 表 上 运用 簇 集 策略 对 查询 的 性 能 也 会 
有 重要 影响 ,一般 都 会 选择 按照 Edge KEW Tag 字段 进行 簇 集 , 使 得 具有 
相同 Tag 的 元 素 存 储 在 一 起 。 当 然 也 可 以 选择 按照 * 源 结 点 ”字段 进行 簇 
集 , 这 种 策略 的 好 处 是 一 个 XML 元 素 的 所 有 子 元 素 都 存储 在 一 起 ,因此 重 
构 原 始 的 XML 文档 将 非常 快 。 但 它 的 缺点 是 具有 相同 标记 名 的 元 素 没有 
被 簇 集 ,因此 对 于 这 样 的 查询 “把 专业 是 计算 机 科学 的 所 有 学 生 都 选择 出 
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来 "将 会 导致 大 量 的 随机 IO。 而 建立 在 Tag 字段 上 的 簇 集 则 表现 出 了 较 好 
的 性 能 ,但 它 对 XML 文档 的 重 构 没 有 任何 好 处 。 

另外 一 种 所 谓 的 属性 方法 。 它 是 按 Edge 表 的 Tag 字段 对 边 表 进行 水 
平 划分 ,不 同 标记 ( 指 Tag 字段 的 值 ) 的 元 组 存储 在 各 自 不 同 的 表 里 。 
方法 以 牺牲 Edge 表 非 常 重要 的 属性 Tag 为 代价 而 节省 了 存储 空间 。 对 属 
性 方法 来 说 ,查询 处 理 器 需要 DTD 来 决定 哪些 表 包 含 子 元 素 , 因 为 子 元 素 
的 标记 没有 存储 在 表 中 。 需 要 注意 的 是 ,对 于 有 很 多 XML 文档 的 一 个 大 
集 , 属 性 方法 可 能 导致 大 量 的 表 。 

对 象 管理 器 方法 。 在 对 象 管理 器 里 存储 XML 文档 的 明显 方法 就 是 把 

一 个 XML 元 素 存储 成 一 个 独立 的 对 象 ,但 是 由 于 XML 元 素 通常 都 非常 

小 ,因此 这 种 方法 的 空间 开销 高 得 令 人 不 敢 问 津 。 取 而 代 之 ,把 XML 文档 
的 所 有 元 素 存储 在 一 个 单独 的 对 象 里 ,而 XML 元 素 本 身 就 变 成 了 这 个 对 象 
里 的 轻 量 级 对 象 。 同 时 ,文献 [2] 用 1w_object, 即 记录 来 表示 轻 量 级 对 象 ， 
而 用 file ob-ject 表示 代表 整个 XML 文档 的 对 象 。 轻 量 级 对 象 (1w_obiect) 
TEX PF XF Z Chle_ object) 中 的 偏 移 量 (COffset) 被 用 作 该 对 象 的 标志 
(1w oid), 

平面 文件 是 存储 XML 文档 的 最 简单 的 机 制 ,但 一 般 不 支持 索引 查询 ， 
也 不 容易 修改 文档 。 关 系 型 或 面向 对 象 数据 库 按照 一 定 的 粒度 来 存储 
XML 文档 ,这 使 得 对 XML 文档 的 访问 比较 容易 也 比较 灵活 ,同时 提高 了 查 
询 和 修改 XML 文档 的 效率 ,而 且 还 可 以 方便 地 建立 和 维护 各 种 索引 。 

文献 [37] 通 过 实验 数据 比较 了 这 几 种 方法 的 性 能 。 实 验 使 用 两 个 数据 
集 : 第 一 个 数据 集 包 含 250 个 XML 文档 ,总 共 114MB55 ; 第 二 个 数据 集 是 
ODP ,总共 140MBE9 。 实 验 所 用 的 关系 数据 库 为 DB2V7. 1, 对 象 方法 的 底 
层 利用 系统 Shore REW; DB2 和 Shore 都 配置 使 用 30MB 的 内 存 缓冲 
池 。 文 本 方法 中 没有 缓冲 池 ,其 查询 处 理 器 使 用 所 有 可 用 的 256MB 物理 内 
存 ; 文本 方法 中 的 索引 利用 BerkeleyDB( 参 阅 BerkeleyDBToolkit. http: // 
www. Sleep-ycat. com/) 来 实现 。 在 利用 关系 数据 库 的 DTD, Edge 和 属性 
方法 中 ,将 用 XQuery 表达 的 查询 手工 翻译 成 DB2 可 执行 的 SQL 查询 
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通过 对 存储 比 .XML 文档 的 重 构 和 查询 速度 等 指标 的 测试 ,初步 的 实 
验 结果 表明 要 想 获 得 好 的 性 能 和 紧凑 的 数据 表示 ,相关 XML 文档 的 DTD 
信息 至 关 重 要 。 当 DTD 信息 可 利用 时 ,DTD 方法 的 数据 表示 就 很 紧凑 ,而 
且 该 方法 对 不 同 的 数据 集 和 不 同 的 查询 均 表现 出 优秀 的 性 能 。 而 利用 适当 
的 索引 ,文本 方法 可 以 获得 与 对 象 管理 器 方法 相似 的 性 能 。 但 是 ,维护 索引 
的 代价 将 使 这 种 方法 只 适用 于 XML 文档 更 新 不 频繁 的 时 候 。 


3. 查询 处 理 的 不 同 


早期 的 XML 数据 以 文档 (文本 文件 ) 的 方式 存储 ,以 关键 字 查询 等 信息 
检索 手段 进行 查询 ,简单 易 用 ,适合 XML 文档 不 频繁 更 新 的 场合 。 由 于 缺 
乏 系 统 的 存储 和 查询 机 制 的 支持 ,造成 系统 查询 能 力 低 ,不 能 满足 复杂 条 件 
的 查询 ,更 谈 不 上 查询 优化 。 一 些 现 有 的 商业 数据 库 管理 系统 扩充 了 处 理 
XML 数据 的 功能 ,利用 现 有 数据 库 成 熟 的 技术 ,把 XML 查询 要 求 转 换 为 数 
据 库 的 查询 表达 ,如 SQL, 由 数据 库 的 查询 引擎 优化 查询 表达 ,产生 查询 执 
行 计划 并 执行 ,最 后 再 将 查询 的 结果 转换 为 XML 数据 。 这 种 方法 在 一 定 程 
度 上 解决 了 查询 复杂 性 的 要 求 ,但 是 多 次 转换 带 来 的 问题 是 效率 的 降低 和 
查询 语义 的 混淆 , 即 阻抗 失 配 的 问题 ,主要 体现 在 以 下 三 个 方面 : 

(1) 从 本 质 上 讲 , 传 统 的 RDBMS 不 支持 层次 的 和 半 结 构 化 的 数据 形 
式 , 只 有 经 过 转换 处 理 才 能 把 嵌 套 的 XML 数据 放 到 简单 的 关系 表 中 。 
XML 是 具有 动态 结构 的 数据 ,这 正 是 XML 可 扩展 性 的 关键 ,而 传统 的 
RDBMS 不 能 处 理 这 种 数据 。 

(2) SQL 适合 于 查询 受 确定 模式 支配 的 表 , 它 不 是 为 具有 动态 .复杂 特 
性 的 XML 设计 的 。 

(3) 传统 的 RDBMS 查询 引擎 需要 把 针对 XML 的 查询 翻译 成 很 多 关系 
表 的 检索 和 连接 运算 ,这 不 仅 造成 查询 性 能 的 下 降 ,而 且 往 往 不 能 产生 代价 
较 小 的 查询 执行 计划 。 

NativeXML 数据 库 管理 系统 ( 纯 XML 数据 库 管 理 系统 ,NXDBMS) 以 
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自然 的 方式 处 理 XML 数据 ,没有 因数 据 模型 转换 而 带 来 信息 丢失 和 性 能 下 
降 。NXDBMS 与 非 NXDBMS 的 区 别 在 于 : 有 效 地 支持 XML 数据 的 自 
描述 性 、 半 结构 化 和 有 序 性 ; @ 系 统 直接 存储 XML 数据 ,而 不 是 把 XML 数 
据 转换 成 关系 模型 或 者 面向 对 象 模型 ,由 关系 数据 库 或 面向 对 象 数据 库存 
fk; @@ 直 接 支持 XML 查询 语言 ,如 XQuery、XPath, 而 不 是 转换 成 SQL 或 
OQL(Object Query Language, 对 象 查询 语言 ) 。 


4. 事务 管理 的 不 同 


事务 管理 的 目的 是 为 了 保持 事务 的 四 个 特性 , 即 原 子 性 、 一 致 性 .隔离 
性 和 持久 性 。 成 熟 的 事务 管理 技术 主要 是 两 个 方面 : 一 方面 是 恢复 技术 , 它 
能 够 保证 事务 的 原子 性 和 持久 性 ,并 能 够 和 人 (程序 员 ) 保 证 一 致 性 ; 另 一 方 
面 是 并 发 控制 技术 , 它 能 够 保证 事务 的 孤立 性 ,而 并 发 控制 技术 则 主要 涉及 
锁 的 技术 .时间 戳 技 术 等 。 

恢复 技术 的 基石 是 日 志 。 日 志 技术 首先 与 XML 数据 库 的 存储 粒度 有 
关 , 如 按 子 树 存储 ,一 个 日 志 记录 可 能 比较 复杂 , 因为 很 难 完全 存储 一 个 记 
录 的 前 映像 或 后 映像 ,这 时 的 前 后 映像 可 能 都 比较 大 。 当 然 也 可 以 记录 相 
应 的 操作 和 值 , 这 时 可 能 也 会 使 一 个 日 志 记录 较 大 ,不 过 这 样 在 恢复 的 时 候 
可 能 节省 磁盘 1/O。 如 果 存 储 粒度 较 小 , 按 结 点 存储 , 则 可 能 会 导致 日 志 太 

再 来 看 并 发 控制 技术 。 在 关系 数据 库 里 面 ,并 发 控制 主要 是 通过 锁 机 
制 实现 的 ,这 些 锁 机 制 大 部 分 都 可 以 用 到 XML 中 。 最 常见 的 封锁 协议 是 两 
阶段 封锁 协议 , 它 要 求 每 个 事务 分 两 个 阶段 加 锁 和 解锁 。 这 在 关系 数据 库 
中 是 可 以 的 ,因为 在 SQL 中 要 访问 的 表 是 确定 的 。 但 是 在 XML 数据 库 中 ， 
操作 对 象 可 能 是 未 知 的 ,典型 的 情况 就 是 “ 跳 转 ”( 比 如 含 IDREF 属性 的 情 
况 )。 还 有 一 种 并 发 控制 方法 是 多 版 本 机 制 。 锁 机 制 里 保证 事务 的 可 串 行 
性 的 方法 是 当 访 问 冲突 时 要 么 延迟 一 项 操作 ,要 么 中 止 一 项 操作 。 比 如 
Read(X) 操 作 , 如 果 X 的 值 已 经 被 覆盖 , 则 操作 会 被 拒绝 。 多 版 本 机 制 就 是 
给 每 个 更 新 的 数据 项 保持 多 个 版 本 ,不 同 的 事务 可 以 访问 不 同 的 版 本 ,从 而 
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提高 并 发 度 。 如 上 例 中 ,如 果 给 X 保持 新 旧 两 个 副本 , 则 Read(X) 就 不 用 被 
拒绝 了 。 多 版 本 机 制 主要 还 是 基于 时 间 戳 , 它 能 够 明显 提高 并 发 度 和 人 性 能 。 
这 种 思想 应 该 可 以 用 到 XML 数据 库 中 ,尤其 是 像 叶子 结 点 访问 比较 频繁 ， 
用 多 版 本 可 以 缓解 频繁 访问 的 压力 。 当 然 .如 何 控制 ,如 何 选择 正确 的 版 本 
可 能 是 比较 复杂 的 问题 。 

在 现实 当中 ,以 数据 为 中 心 和 以 文档 为 中 心 的 文档 之 间 的 差别 不 一 定 
很 明显 。 例 如 ,以 数据 为 中 心 的 文档 ,比如 发 票 ,可 能 含有 大 粒度 的 、 结 构 不 
规则 的 数据 比如 零件 说 明 ; 以 文档 文中 心 的 文件 ,如 用 户 手 册 , 可 能 包含 细 
粒度 的 结构 规则 的 数据 (通常 为 元 数据 ), 比 如 作者 和 修订 日 期 。 其 他 例子 
包括 法 律 和 医学 文书 ,虽然 以 松散 的 形式 写成 ,但 是 却 包 含 离 散 的 数据 , 例 
如 日 期 .名称 和 操作 程序 ,出 于 法 规 的 原因 通常 要 以 完整 的 文件 形式 存储 。 

和 弄 清 文件 的 这 两 种 特点 有 助 于 选择 数据 库 的 类 型 。 一 般 来 说 ,将 数据 
存储 于 传统 的 数据 库 , 例 如 关系 型 ,面向 对 象 型 或 层次 型 数据 库 ,这 可 由 第 
三 方 的 中 间 件 完成 或 由 数据 库 本 身 提供 内 在 支持 。 对 于 后 者 ,该 数据 库 被 
称 作 支持 XML 的 (XML-enabled) 。 文 档 可 被 存储 在 原生 (native)XML 数 
据 库 或 内 容 管理 系统 ( 建 在 原生 XML 数据 库 之 上 专门 用 来 管理 文档 的 程 
序 ) 中 。 

这 些 原则 并 不 是 绝对 的 。 如 果 对 XML 特有 的 功能 不 很 看 重 , 数 据 , 特 
别 是 半 结 构 化 的 数据 可 以 存储 在 原生 XML 数据 库 中 ,文档 也 可 以 存储 到 传 
统 数据 库 。 何 况 传统 数据 库 与 原生 XML 数据 库 之 间 的 界限 越 来 越 模 糊 , 传 
统 数 据 库 增加 了 原生 XML 的 能 力 , 而 原生 XML 数据 库 也 增加 了 对 文档 存 
储 在 外 部 (通常 为 关系 型 ) 数 据 库 的 支持 。 
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设计 数据 库 时 ,要 分 析 数 据 库 必须 存储 的 信息 及 这 些 信 息 组 成 部 分 之 
间 的 关系 。 通 常数 据 库 的 结构 为 数据 库 模 式 (Database Schema) ,传统 的 关 
系数 据 库 采 用 “实体 /联系 ”(E/R) 模 型 来 描述 数据 关系 ,并 依 此 进行 数据 库 
设计 。XML 文档 是 半 结 构 化 数据 ,E/R 图 不 能 完全 体现 数据 之 间 的 关系 ， 
所 以 首要 解决 的 是 XML 数据 库 的 数据 模型 问题 。 


3.1 XML 数据 模型 


数据 模型 是 XML 数据 管理 研究 领域 的 核心 问题 之 一 ,用 来 给 出 XML 
数据 以 及 数据 上 操作 的 精确 语义 ,是 XML 数据 的 查询 处 理 和 优化 的 基础 。 
部 分 研究 者 利用 传统 数据 模型 (如 关系 模型 和 面向 对 象 数据 模型 ) 来 表示 
XML 数据 的 结构 和 语义 。 其 中 ,Stanford 的 R. Goldman 等 人 利用 OEM 模 
型 来 表达 XML 数据 的 结构 和 语义 中 ,研究 者 也 开展 了 大 量 基 于 关系 模型 的 
XML 数据 管理 的 研究 工作 2 。 这 些 方法 的 最 大 问题 是 : XML 数据 上 的 一 
个 操作 需要 用 这 些 模 型 上 的 一 系列 操作 来 表示 ,因此 显得 力不从心 。 

为 此 ,研究 者 给 出 了 两 个 XML 模型 一 一 树 模型 和 图 模型 。 这 两 种 模型 
都 是 直观 上 的 模型 ,不 是 严格 意义 上 的 数据 模型 。 因 此 ,提出 一 种 能 够 有 效 
表达 XML 数据 的 模型 以 及 给 出 该 模型 上 XML 数据 操作 的 形式 化 定义 变 得 
尤为 重要 。 如 何 利 用 数学 的 方法 严格 描述 XML 数据 以 及 数据 上 的 操作 , 进 
而 完成 XML 数据 查询 的 代数 优化 ,成 为 XML 数据 管理 领域 一 个 十 分 重要 
的 研究 问题 。 
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在 XML 数据 模型 和 代数 操作 方面 , 现 已 取得 了 一 些 研究 成 果 : 

CD 研究 者 用 四 种 模型 对 XML 数据 进行 描述 : 关系 模型 .面向 对 象 模 
型 . 树 模型 和 图 模型 。 

面向 对 象 模型 可 以 方便 地 表达 出 XML 数据 的 结构 以 及 语义 ,但 为 了 支 
持 路 径 表 达 式 查询 ,操作 必须 是 面向 过 程 的 ,需要 复杂 的 数据 导航 ,并 不 适 
应 XML 数据 管理 的 需要 ; 另外 ,由 于 XML 数据 半 结 构 化 的 特点 ,为 存储 
XML 数据 ,将 会 产生 大 量 磁 盘 碎 片 。 如 果 用 关系 模型 或 嵌 套 关系 模型 来 描 
述 XML 数据 的 结构 和 语义 ,其 操作 需要 用 大 量 昂贵 的 join 操作 来 表示 中 ， 
并 不 适应 XML 数据 管理 的 需要 ; 此 外 ,用 关系 和 面向 对 象 模型 表示 XML 
数据 的 结构 和 语义 ,将 XML 数据 查询 操作 的 语义 映射 到 相应 模型 的 开销 也 
很 大 。 

研究 者 根据 XML 数据 的 结构 和 语义 ,采用 了 两 种 直观 的 XML 模 
型 一 一 树 模 型 和 图 模型 。 其 中 树 模 型 得 到 了 广泛 的 应 用 , 它 把 一 个 XML x 
档 视 为 一 棵 树 ,把 多 个 XML 文档 看 作 一 个 森林 。 因 为 树 模型 可 以 很 容易 地 
表达 出 XML 数据 的 层次 结构 ,在 XML 数据 管理 的 研究 中 ,人 们 自然 地 把 它 
视 为 XML 的 直观 数据 模型 。 但 它 忽略 了 XML 数据 的 一 些 特性 ,如 XML 
数据 的 模式 信息 以 及 元 素 结 点 之 间 的 引用 关系 。 图 模型 把 XML 数据 视 为 
一 个 有 向 图 。 直 观 上 ,图 模型 可 以 表达 单个 XML 文档 的 语义 ,但 是 ,目前 还 
没有 研究 给 出 图 模型 的 精确 定义 。 树 模型 和 图 模型 都 是 对 XML 文档 进行 
建 模 ,对 于 具有 相同 模式 而 具体 数据 不 同 的 XML 文档 ,这 两 种 模型 在 表达 
上 是 不 同 的 ,这 并 不 适合 数据 管理 的 需要 。 为 此 .M. Arenas 等 人 利用 正则 
表达 式 给 出 了 XML 模式 和 数据 的 精确 定义 加 ,但 该 研究 并 未 进一步 给 出 
XML 数据 上 操作 的 定义 。 

(2) 在 XML 代数 操作 的 研究 方面 ,研究 者 提出 了 一 些 XML 的 代数 
操作 。 

在 Christophides 以 及 Ludascher 等 人 关于 中 间 件 的 研究 中 ,给 出 了 一 
些 适合 中 间 件 数据 交换 的 XML 操作 代数 中。 这 些 研究 的 最 主要 特点 是 代 
数 操作 的 输入 和 输出 都 是 元 组 ,这 些 研 究 是 早期 的 XML 数据 操作 代数 。 在 
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W3C 标准 中 给 出 XML 路 径 表 达 式 的 查询 语言 XQuery, 它 的 输入 和 输出 都 
是 XML 文档 元 素 的 列表 。 此 外 ,研究 者 还 提出 了 其 他 一 些 XML 代数 : 
Buneman 等 人 提出 的 一 种 半 结 构 化 数据 的 查询 语言 和 代数 0 ; Beeri 等 人 
提出 的 SALE” ; Jagadish 等 人 提出 的 TAXU” ; Fernandez 等 人 于 2001 年 
也 给 出 相应 的 代数 操作 5 ;， 备 小 峰 等 人 提出 了 OreintXAD5 。 但 这 些 研 究 
并 没有 给 出 XML 代数 操作 的 精确 语义 。 

由 于 已 有 的 XML 模型 在 以 下 几 方 面 各 有 不 足 之 处 : 

* 无 法 表达 XML 数据 的 复杂 语义 ; 

。 没有 给 出 完整 的 代数 操作 的 定义 ; 

。 在 模型 上 没有 给 出 数据 修改 操作 的 明确 定义 。 

目前 ,大 多 数 研究 直接 采用 半 结 构 化 数据 模型 ,其 中 最 有 代表 性 的 是 
OEM 模型 外 以 及 XQueryl. 0 和 XPath 2. 0 数据 模型 中 。 本 章 将 对 XML 
数据 模型 进行 探讨 ,通过 对 XQuery 数据 模型 的 扩展 ,提出 一 种 基于 关系 数 
据 库 的 存储 策略 59 ,并 研究 实现 了 基于 扩展 XQuery 的 更 新 语言 XULLO”, 


3.1.1 对 象 交 换 模 型 


对 象 交换 模型 (Object Exchange Model, 简称 OEM) 是 专门 为 了 表示 半 结 
构 化 数据 而 提出 的 。 该 模型 产生 于 1997 年 ,应 用 在 斯 坦 福 大 学 Abiteboul 等 人 
开发 的 半 结 构 化 数据 库 管 理 系统 Lore(light weight object repository)? rf, 
在 OEM 模型 中 ,所 有 实体 都 是 对 象 (object) ,一 个 OEM 对 象 是 一 个 四 元 
组 : (label,oid,type,value) 。 其 中 ,label 是 对 象 标记 ,表示 对 象 的 名 称 , 标 记 
有 两 个 作用 ,用 于 区 分 不 同 的 对 象 . 表 达 对 象 的 含义 ; oid 是 对 象 标识 符 , 不 
同 对 象 的 oid 是 唯一 的 ; type 表示 对 象 类 型 ,OEM 定义 了 两 种 类 型 的 对 象 ; 
复杂 类 型 .原子 类 型 ; value 是 对 象 的 取 值 。 当 type 是 原子 类 型 时 , 称 对 象 
为 原子 对 象 (atomic object) ,此 时 value 是 该 类 型 的 一 个 原子 值 , 如 integer、 
real string gif 等 ; 当 type 是 复杂 类 型 时 ,对 象 称 为 复杂 对 象 (complex 
object) ,此 时 value 是 对 象 标识 的 集合 (或 列表 ), 即 复杂 对 象 由 若干 子 对 象 
构成 , 子 对 象 可 以 是 复杂 对 象 或 者 原子 对 象 。 
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XML 推出 后 ,OEM 数据 模型 又 专门 进行 了 基于 XML 的 扩展 ,在 基于 
XML 的 OEM 数据 模型 中 ,一 个 XML 元 素 用 一 个 二 元 组 (eid,value) 表 示 。 
eid 是 该 元 素 唯 一 的 标识 符 ; value 是 元 素 的 值 ,该 值 可 以 是 一 个 文本 串 形式 
的 原子 值 ,也 可 以 是 包含 以 下 4 种 成 分 的 复杂 

CD 用 字符 串 表示 的 该 元 素 标记 ; 

(2) 属性 名 一 一 原子 值 对 列表 ,其 中 属性 名 是 一 个 字符 串 , 代 表 属 性 的 
名 称 , 原 子 值 是 该 属性 的 取 值 ,原子 值 的 类 型 可 以 是 integer, real, string, ID, 
IDREF .或 者 IDREFS 等 

(3) 一 个 有 序 的 形 如 (label,eid) 的 链接 子 元 素 列 表 , 其 中 label 是 一 
字符 串 ,表示 子 元 素 的 标记 ,eid 为 链接 元 素 的 标识 符 , 链接 子 元 素 通过 
IDREF 或 者 IDREFS 属性 类 型 加 以 说 明 ; 

(4) 一 个 有 序 的 形 如 (label, eid) 的 一 般 子 元 素 列表 ,表示 非 链接 子 元 
素 , 其 中 label 是 子 元 素 的 标记 ,eid 为 子 元 素 的 标识 符 。 

对 一 般 子 元 素 与 链接 子 元 素 加 以 区 分 是 为 了 使 模型 可 以 同时 支持 文法 
模式 和 语义 模式 。OEM 数据 模型 可 以 用 有 向 边 标 记 图 模型 表示 , 称 为 
OEM 图 模型 。 在 OEM 图 模型 中 , 结 点 代表 对 象 或 者 原子 值 , 边 对 应 元 素 名 
称 。 图 3-1 显示 的 是 一 个 简单 的 XML 文档 和 它 对 应 的 OEM 图 模型 。 从 图 
中 可 以 直观 地 看 出 所 描述 数据 的 内 容 和 结构 特征 : 元 素 标 识 符 (eid) 以 8-1, 
信 2…… 的 形式 出 现在 结 点 中 ; 指向 该 结 点 的 边 上 的 标记 表示 结 点 的 名 称 
(元 素 名 称 ); 元 素 值 以 及 属性 名 称 和 对 应 的 属性 值 显示 在 相应 结 点 的 旁边 。 
图 中 元 素 之 间 以 及 元 素 与 对 应 的 原子 值 之 间 的 边 用 实 线 表示 ,IDREF 属性 
用 斜体 表示 ,交叉 链接 边 用 虚线 表示 , 子 元 素 的 顺序 按照 自 左 至 右 排列 。 


3.1.2 XQuery 数据 模型 


Infoset 模型 XPath 数据 模型 DOM 模型 XQuery 1.0 和 XPath 2.0 
数据 模型 都 是 W3C 推荐 的 XML 数据 模型 ,这 些 模型 都 是 OEM 的 变 体 。 
其 中 ,XQuery 1.0 和 XPath 2.0 数据 模型 "9 是 W3C 的 候选 推荐 标准 ,该 模 
型 来 源 于 Infoset 模型 ,目前 由 XSLT 2.0、XQuery 1.0 和 XPath 2.0 三 部 分 
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<DBGroup> 
«Member Name= "smith" Advison= "ml "> 
<Age>28</Age> 
</ Member > 
< Member ID= "m1 " Progect= "pl "> 
<Name>Jones</ Name> 
<Advisor>Ullman</Advisor> 
</ Member> 
<Project ID="pl" Member= "ml "> 
<Title>Lore</Title> 
</ Project> 
</ DBGroup> 


{1D="p1" 
Member="m1"} 


{ Name="smith" 
Advison="m1"} 


Membe: 
Project 


Age 


"28" "Jones" "Ullman" "Lore" 


图 3-1 一 个 XML 文档 及 其 对 应 的 OEM 图 模型 


组 成 。 模 型 定义 了 XML 文档 的 表示 形式 ,描述 了 实现 查询 必须 理解 的 数据 
项 和 形式 语义 的 基础 ,对 XSLT 和 XQuery 处 理 器 所 能 够 处 理 的 信息 进行 了 
说 明 ,为 XSLT, XQuery, XPath 语言 中 的 表达 式 所 允许 的 值 进行 了 定义 。 
W3C 是 这 样 定义 这 个 数据 模型 的 :“XQueryl. 0 and XPath2. 0 数据 模型 可 
以 达到 两 个 目的 : 第 一 , 它 定 义 了 输入 到 XPath, XSLT 和 XQuery 处 理 器 的 
信息 ; 第 二 , 它 定义 了 XPath, XSLT 和 XQuery 中 所 允许 的 表达 式 的 值 。 如 
果 一 个 语言 中 的 每 个 表达 式 的 值 都 保证 在 数据 模型 中 ,那么 就 说 这 个 语言 
关于 这 个 模型 是 封闭 的 。XSLT2. 0, XQueryl. 0 和 XPath2. 0 关于 这 个 模型 
都 是 封闭 的 。” 
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在 该 模型 中 ,把 一 个 XML 文档 看 成 是 由 若干 (数据 ) 项 (item) 组 成 。 一 
个 XML 文档 可 以 表示 成 一 棵 树 (XML 文档 树 ) ,文档 中 所 有 的 item 在 
XML 文档 树 中 用 结 点 表示 (node) ,一 个 item 是 树 的 一 个 结 点 。 模 型 定义 了 
7 种 结 点 类 型 : 文档 结 点 .元素 结 点 、 属 性 结 点 、 名 称 空 间 结 点 、 处 理 指令 结 
点 ,注释 结 点 、 文 本 结 点 。 

(1) 文档 结 点 

文档 结 点 为 树 的 根 结 点 ,代表 整个 文档 集合 , 除 此 之 外 ,文档 结 点 不 再 
出 现 。XML 文档 的 根 元 素 结 点 是 文档 结 点 的 孩子 。 出 现在 XML 文档 的 序 
言 中 ( 即 根 元 素 之 前 ) 和 根 元 素 之 后 的 处 理 指 令 及 注释 直接 作为 文档 结 点 的 
孩子 结 点 (处 理 指 令 结 点 及 注释 结 点 )。 

(2) 元 素 结 点 

XML 文档 中 的 每 个 元 素 都 对 应 于 XML 文档 树 中 的 一 个 元 素 结 点 。 元 
素 结 点 的 孩子 可 以 是 元 素 结 点 \ 注 释 结 点 、 处 理 指令 结 点 、 属 性 结 点 、 命 名 空 
间 结 点 及 其 内 容 的 文本 结 点 。 对 内 部 及 外 部 实体 引用 将 被 扩展 ,字符 引用 
也 被 分 解 。 

(3) 属性 结 点 

每 个 元 素 结 点 可 以 有 相关 联 的 属性 结 点 集 , 元 素 结 点 是 它 的 每 个 属性 
结 点 的 父 结 点 。XML 标准 详细 说 明了 属性 结 点 的 字符 串 , 它 是 一 个 规范 化 
的 值 。 

(4) 命名 空间 结 点 

每 个 元 素 结 点 可 以 有 相关 联 的 命名 空间 结 点 集 , 它 是 在 XML 文档 中 声 
明 的 在 元 素 的 范围 内 有 效 的 每 个 命名 空间 前 级 (包括 XML nia. d XML 
命名 空间 建议 隐 式 地 声明 ) ,以 及 默认 命名 空间 。 元 素 结 点 是 它 的 每 一 个 命 
名 空间 结 点 的 父 结 点 。 命 名 空间 结 点 的 字符 串 是 命名 空间 前 缀 所 绑 定 的 命 
名 空间 URI, 如 果 它 是 相对 的 , 则 必须 被 解析 。 

(5) 处 理 指 令 结 点 

除了 在 文档 类 型 声明 中 出 现 的 处 理 指令 外 ,每 个 处 理 指令 对 应 一 个 处 
理 指令 结 点 。 处 理 指令 结 点 的 字 串 值 是 处 理 指令 的 内 容 , 不 包括 起 始 的 
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"rg, 

(6) 注释 结 点 

除了 在 文档 类 型 声明 中 出 现 的 注释 外 ,每 条 注释 对 应 一 个 注释 结 点 。 
注释 结 点 的 字 串 值 是 注释 内 容 ,不 包括 起 始 的 二!” 和 “1! 二”。 

(7) 文本 结 点 

文本 结 点 由 字符 数据 组 成 。 每 个 文本 结 点 都 包含 尽 可 能 多 的 字符 数 
据 , 而 且 不 会 出 现 两 个 相 邻 的 文本 结 点 。 文 本 结 点 的 字 串 值 是 其 字符 数据 。 

一 个 数据 模型 的 实例 包含 一 个 或 多 个 XML 文档 或 XML 文档 片断 ,每 
个 都 表示 为 由 若干 结 点 构成 的 树 。 一 个 XML 文档 对 应 的 树 的 根 结 点 是 一 
个 文档 结 点 。 在 这 个 数据 模型 中 ,每 个 结 点 具有 两 种 类 型 的 值 , 分 别 是 其 字 
串 值 和 类 型 值 。 字 串 值 就 是 该 结 点 用 字符 串 形式 表现 的 值 ; 而 类 型 值 则 是 
结 点 声明 的 类 型 的 值 。 元 素 ( 结 点 ) 和 属性 ( 结 点 ) 的 取 值 为 原子 类 型 (atomic 
type) 值 域 中 的 值 , 包 括 XML Schema 和 xdt; untypedAtomic 定义 的 所 有 类 
型 。 每 个 结 点 有 一 个 唯一 的 结 点 标识 (node identity) 。 另 外 ,元 素 结 点 和 属 
性 结 点 还 可 以 有 类 型 值 (typed values? .字符 串 值 Cstring values) 和 名 称 ,这 
些 内 容 可 以 从 结 点 中 抽取 出 来 (参见 图 3-5 和 图 3-10) 。 


3.2 基于 Schema 约束 的 XML 文档 存储 和 索引 技术 


可 扩展 标记 语言 XML 作为 一 种 与 平台 无 关 的 数据 表示 形式 已 被 广泛 
采用 ,特别 是 电子 商务 .Web 服务 等 应 用 的 普及 发 展 , 使 得 XML 类 型 的 数据 
成 为 当前 主流 的 数据 形式 ,数据 交换 已 成 为 XML 技术 的 主要 驱动 力 之 一 。 

XML 数据 的 基本 形式 是 XML 文档 ,XML 数据 库 就 是 一 个 XML 文档 
的 集合 ,这 些 文档 是 持久 的 并 且 可 操作 的 。 因 为 低层 的 存储 表达 对 上 层 的 
查询 处 理 和 优化 有 着 重要 的 性 能 影响 2 ,所 以 如 何以 最 好 的 方式 存储 XML 
文档 已 经 成 为 研究 热点 。 关 系数 据 库 以 其 强大 的 查询 功能 和 科学 严密 的 数 
据 库 设计 基础 成 为 首选 对 象 。 曾 任 ACM 数据 管理 专门 组 主席 的 计算 机 科 
学 教授 Michel Stonebraker 将 数据 库 的 应 用 市 场 描述 为 一 个 2 乘 2 fog 
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Fg (如 图 3-2 所 示 ) ,预言 对 象 一 关系 数据 库 管理 系统 将 是 数据 库 市 场 的 
主流 ,并 指出 将 对 象 一 关系 型 引擎 与 关系 型 的 存 

储 管理 器 结合 起 来 是 一 个 好 的 策略 。 近 年 来 ， | oes | 对 名 ,关系 
Oracle Database, IBM DB2 和 MS SQL Server m 面向 对 象 

对 XML 数据 的 管理 体系 基本 采用 关系 和 对 系统 DBMS 

象 一 关系 数据 管理 的 技术 支持 ,通过 用 户 定义 简单 数据 ”复杂 数据 

的 函数 和 存储 过 程 来 实现 对 XML 数据 的 存 取 、 mao DBMS 分 类 矩阵 
存储 选择 和 变换 。 

对 于 XML 数据 的 约束 ,Brett Mclaughlin 曾 这 样 阐述 : 一 个 有 效 的 
XML 文档 必须 满足 它 引 用 的 模式 中 设置 的 所 有 约束 条 件 [ 淖 。 一 个 不 是 良 
构 (well-formed) 的 或 者 无 效 (invalid) 的 文档 容易 引起 歧义 ,因此 引入 XML 
数据 模式 (XML Schema. XML 模式 ) 主 要 有 三 个 目的 : 

CD 模式 可 以 约束 表 、 属 性 或 类 层次 ,使 用 户 理解 数据 库 的 结构 ,以 便 形 
成 有 意义 的 查询 ; 

(2) 查询 处 理 器 必须 依赖 模式 为 计算 查询 结果 而 设计 有 效 的 查询 
HRPA; 

(3) 如 果 不 知道 一 个 特定 文档 结 点 值 的 数据 类 型 ,就 不 可 能 准确 知道 在 
Xpath 中 比较 操作 符 的 含义 。 

XML Schema 是 W3C 推出 的 一 个 新 的 工作 草案 ,弥补 了 DTD 存在 的 
问题 以 及 局 限 性 ,为 XML 文档 提供 丰富 的 语法 结构 ,支持 复杂 数据 类 型 和 
文档 片段 ,能 够 表示 元 素 的 复杂 约束 ,并 对 类 继承 提供 了 广泛 的 支持 。 本 节 
从 符合 XML 模式 的 有 效 的 XML 文档 数据 角度 出 发 ,提出 利用 关系 数据 库 
来 存储 模式 信息 和 文档 数据 的 方法 ,该 方法 具有 以 下 特点 : 

CD 将 文档 结 点 信息 和 结构 信息 有 机 结合 共同 存储 于 关系 表 中 ,提高 了 
复杂 路 径 查 询 的 导航 效率 ; 

(2) 强调 模式 约束 文档 ,有 利于 保证 XML 文档 的 查询 和 更 新 的 有 
ATE; 

C3) 有 效 利 用 关系 数据 库 系 统 的 索引 技术 和 存储 索引 维护 策略 。 
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3.2.1 对 现 有 XML 数据 存储 管理 技术 的 分 析 


根据 第 2 章 内 容 可 知 ,XML 数据 库 的 存储 策略 主要 有 四 种 : 利用 文件 
系统 的 平面 文件 .利用 成 熟 的 RDBMS (Relational Database Management 
System, 关 系数 据 库 管理 系统 )、 利 用 对 象 管理 器 或 OODBMS ( Object- 
Oriented Database Management System, 面 向 对 象 数 据 库 管理 系统 ) .采用 全 
新 的 Native XML 数据 库 管 理 系统 。 实 验 结果 表明 关系 数据 库存 储 方法 优 
于 其 他 方法 。 

近 几 年 所 提出 的 XML 到 关系 数据 库 的 模式 映射 方法 ,主要 分 为 两 类 : 
第 一 类 方法 映射 产生 的 关系 模式 依赖 于 XML 模式 ,在 处 理 海量 的 .具有 不 
同 结构 的 XML 数据 时 有 很 大 的 局 限 性 ,原因 是 修改 模式 定义 带 来 的 更 新 粒 
度 较 大 。 第 二 类 映射 方法 产生 的 关系 模式 独立 于 XML 模式 ,如 文献 [2] 以 
一 个 三 元 关系 存储 XML 文档 。 这 种 存储 方法 能 够 有 效 解 决 第 一 类 映射 方 
法 中 出 现 的 部 分 问题 ,但 对 于 XML 路 径 查 询 . 通 常 需要 遍历 整个 数据 库 , 进 
行 多 次 连接 操作 才能 确定 路 径 的 正确 性 并 完成 查询 工作 ,因而 效率 相对 较 
低 。 如 何 将 两 种 技术 有 机 结合 , 既 能 处 理 海 量 数 据 的 存储 问题 ,又 能 保证 数 
据 查询 和 更 新 的 高 效 性 成 为 我 们 研究 的 重点 。 

XML 数据 库 的 索引 技术 对 XML 数据 查询 处 理 起 着 至 关 重 要 的 作用 ， 
如 果 没 有 索引 的 支持 ,将 带 来 很 大 的 L/O 代价 和 语义 支持 方面 的 限制 。 对 
于 XML 数据 库 索 引 技术 的 研究 越 来 越 受 重 视 。 例 如 Stanford 大 学 的 Lore 
系统 中 引入 DataGuides 用 于 保证 数据 库 数据 的 一 致 性 2 ,并 建立 了 值 索 
5| RAE RI 边 索引 和 路 径 索引 。 文 献 [4] 提 出 了 5 种 索引 结构 : Name 
Index, Element Index, Attribute Index, Structure Index, Value Table, #2 
方法 是 将 复杂 的 Xpath 查询 路 径 表 达 式 分 解 为 简单 路 径 ,然后 经 过 EE 
(Element and Element Join Algorithm), EA (Element and Attribute Join 
Algorithm), KC (Kleene Closure Join Algorithm) 的 连接 操作 获得 结果 。 
XISS(XML Indexing and Storage System) 索 引 兼备 路 径 记 录 和 结构 索引 、 
树 接点 编码 两 个 特点 ,但 索引 结构 中 关于 路 径 记 录 和 节点 编码 的 两 部 分 
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(Structure Index 和 Element Index) 相 互 独立 ,造成 索引 的 空间 代价 。 
3.2.2 基于 Schema 约束 的 XML 数据 存储 和 索引 


严格 地 讲 ,XML 模式 并 不 是 指 哪 一 种 模式 语言 ,XML Schema 仅 是 多 
种 选择 中 的 一 种 。 但 是 由 于 XML Schema 的 特殊 地 位 以 及 与 日 俱 增 的 影响 
力 ,XML Schema 有 望 成 为 主流 的 模式 语言 ,本 章 中 提 及 的 模式 就 是 W3C 
制定 的 XML Schema。 

一 般 来 说 ,对 于 XML 数据 存储 ,可 能 有 多 个 XML Schema. 而 对 于 每 个 
XML Schema, 可 能 对 应 多 个 XML 文档 。 本 文 所 提出 的 索引 结构 就 是 针对 
这 样 的 数据 存储 。 

本 节 将 从 检索 效率 和 更 新 维护 的 角度 出 发 ,提出 一 种 基于 Schema 约束 
的 XML 文档 的 模式 和 数据 索引 、 存 储 方法 ,不 仅 改善 存储 效率 和 提高 检索 
速度 ,更 重要 的 是 有 利于 数据 更 新 操作 。 


1. XML 模式 信息 的 存储 和 索引 


文档 实例 与 模式 之 间 有 多 种 对 应 关系 ,一 个 模式 可 以 描述 许多 有 效 的 
文档 ,同样 一 个 文档 也 可 以 被 许多 模式 描述 。 模 式 最 重要 的 处 理 是 模式 的 
验证 ,所 以 其 信息 必须 单独 存储 。 

定义 3-1 模式 语义 树 n9 : 对 应 于 XML Schema 定义 的 一 棵 有 向 树 ， 
根 元 素 是 Schema, 入 度 为 0, 层次 为 0; 出 度 为 0 的 结 点 称 为 叶 结 点 ,标记 
元 素 或 属性 的 数据 类 型 ,用 椭圆 表示 ; 入 度 和 出 度 均 不 为 0 的 结 点 称 为 分 
支 结 点 ,分 为 属性 结 点 和 元 素 结 点 ,矩形 框 表示 元 素 , 三 角形 表示 属性 。 拢 
形 框 两 侧 标识 对 元 素 或 属性 的 限制 ,如 最 大 最 小 值 . 允 许 空 值 . 唯 一 性 及 是 
和 否 主 键 等 约 东 等 ; 有 向 边 标识 父 结 点 指向 子 结 点 ,数字 标识 父 结 点 的 所 有 
子 结 点 的 顺序 (左右 序 ) 。 图 3-4 是 图 3-3 中 XML Schema 对 应 的 模式 语 
义 树 。 

XML Schema 本 身 就 是 XML 文档 ,一 般 不 会 太 大 ,更 新 不 会 太 多 ,所 以 
采用 深度 优先 ( 先 根 遍历 ) 为 每 个 结 点 编码 ,叶子 结 点 不 参与 编码 。 建 立 模 
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<xs:schemaxmlns: xs= "http://www.w3.org/2001/XMLSchema"> 
ement name= "Customer" type= "CustomerType" > 


element> 
mplexType name= "Customer Type" > 
< xs: sequence > 
<xs:element name= "CustomerID" type="xs:string" /> 
<xs:element name= "Order" type="OrderType" /> 
</xs:sequence> 
s:complexType> 


:complexType name= "OrderType" > 
< xs:sequence-- 
<xs:element name= "OrderID" type="xs:integer" /> 
<xs:element name= " Lineltem" minOccurs — "1" maxOccurs = " unbound" 
ineltemType" /> 
— /xs:sequence- 
— / xs:complexType— 


«xs:complexType name— "LineltemType"> 
M xs:sequence—- 
<xs:element name= "ProductID" type= "xs:integer" /> 
— xs:attribute name— "Quantity" type— "xs: integer" /> 
— xs: attribute name— "UnitPrice" type— "xs:decimal" /> 
— /xs:sequence- 
— / xs:complexType—- 
xs :key name- "KI" 
xs: selector xpat Customer" / 
—xs: field xpath— "CustomerID" / — 
</xs: key 
— / xs:schema2 


图 3-3 一 个 XML Schema 实例 
式 结构 信息 ， 


Schema. Structure ( SchemaID, name, ea_ flag, preorder, level, parent_ preorder, sequence, 


type) 
Schema Constrain( SchemaID, name, min, max, restriction) 


其 中 Schema, Structure 是 主 表 ,用 于 存放 模式 结构 信息 。SchemalD 为 
XML Schema 模式 文档 标识 符 ,便于 多 模式 的 XML 数据 管理 (如 果 数 据 库 
只 有 一 个 模式 ,可 以 省 略 )。ea_flag 为 元 素 或 属性 标识 ,0 表示 复合 元 素 ， 
1 表示 属性 ,2 表示 简单 元 素 。Schema_Constrain 为 辅 表 , 用 于 存储 模式 中 
元 素 和 属性 的 限制 条 件 ; max 和 min 表示 数据 的 最 大 最 小 值 ; restriction 表 
示 限 制 类 型 ,如 key 表示 关键 字 ; scope 表示 取 值 范围 约束 ; sequence 表示 
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元 素 的 子 元 素 或 属性 有 序 等 等 。 如 图 3-4 中 的 Order, Lineltem 和 CustomerID 
AE TUR ,如 果 大 部 分 元 素 有 限制 ,可 以 将 两 个 表 合 并 为 一 个 (将 模式 信息 分 
别 存储 在 两 个 关系 表 中 ,主要 是 考虑 元 素 限 制 不 多 时 ,会 产生 大 量 空 值 )。 


Schema 
| —----2-2---2-2-------2------------ 全 0g 
Customer | | SS a a -— 1E 
zo 00€ 
(ey) CustomerID [0 | 一 2 层 


(Greger ) ProductID 


图 3-4 XML Schema 模式 语义 树 


与 图 3-4 对 应 的 模式 结构 信息 表 和 约束 信息 表 如 表 3-1 和 表 3-2 所 示 。 
Schema Structure 表 主 键 为 preorder, 以 SchemaID 为 关键 字 建 立 B+-Tree 
索引 ,对 于 相同 XML 模式 ,按照 preorder 字段 建立 辅 索引 ,为 路 径 查 询 实 现 
快速 导航 。 


表 3-1 模式 结构 信息 表 Schema Structure 


SchemaID name ea flag | preorder| level |parent preorder|sequence| type 
1 Customer 0 1 1 0 0 complex 
1 CustomerID 2 2 2 1 1 string 
1 Order 0 3 2 1 2 complex 
1 OrderID 2 4 3 3 integer 
1 LineItem 0 5 3 3 2 complex 
1 ProductID 2 6 4 5 1 integer 
1 Quantity 1 7 4 5 2 integer 
1 UnitPrice 1 8 4 5 3 decimal 
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表 3-2 模式 约束 信息 表 Schema Constrain 


SchemaID name min max restriction 
t] CustomerID key 
1 LineItem 1 null scope 
1 Lineltem sequence 
1 Order sequence 


2. 加 载 XML 数据 的 有 效 性 验证 


验证 用 来 判断 文档 是 否 符合 模式 中 所 描述 的 所 有 约束 ,涉及 到 检查 文 
档 实 例 中 所 有 的 元 素 和 属性 ,从 而 确定 它们 是 否 有 声明 ,以 及 它们 是 否 符合 
这 些 声 明 及 相应 的 数据 类 型 定义 。 验 证 过 程 将 检查 以 下 内 容 : 

。 数据 的 正确 性 。 根 据 模 式 来 验证 并 不 能 完全 保证 数据 都 是 正确 的 ， 

但 是 它 可 以 显示 无 效 的 格式 或 者 超出 范围 的 值 。 

。 数据 的 完整 性 。 检 查 是 否 所 有 必须 的 信息 都 存在 。 

。 对 数据 的 共同 理解 。 确 保 理 解 文档 的 方式 与 语法 分 析 器 相同 。 

有 了 XML Schema 模式 信息 ,就 可 以 对 XML 文档 数据 进行 有 效 性 检 
验 。 如 图 3-5 的 文档 树 中 ,有 两 处 与 模式 冲突 ,一 处 是 模式 中 不 存在 “PO” 元 
3 ,一 处 是 “Quantity” 和 “UnitPrice” 属 性 顺序 颠倒 。 当 然 应 该 在 加 载 数 据 的 
同时 , 即 解析 数据 过 程 中 实现 检验 和 矫正 过 程 ,或 修改 XML 文档 或 重新 定 
义 XML 模式 。 

定义 3-2 文档 树 : 对 应 XML 文档 数据 的 一 棵 有 向 树 ,符号 含义 与 对 
应 的 语义 模式 树 相 同 , 只 是 叶子 结 点 表示 元 素 或 属性 的 具体 取 值 。 

定义 3-3 ”有效 XML 文档 : WR XML 文档 中 的 元 素 、 属 性 的 定义 ( 包 
括 名 称 、 数 据 类 型 及 约束 定义 ) 与 对 应 模式 中 定义 没有 冲突 , 则 认为 此 文档 
是 有 效 的 。 有 效 XML 文档 树 与 对 应 语义 模式 树 同 构 。 


3. XML x f i fs B fe fin e S] 


对 有 效 XML 文档 树 ( 如 图 3-5 中 删除 PO 元 素 , 调 换 UnitPrice 和 
Quantity 属性 ) 结 点 采用 Li-Moon 编码 中 方案 ,为 每 一 个 节点 赋予 一 个 二 元 
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mid 


Customer 

| 一 
一 ~--- 2 x Lm 
1 
l PO | CustomerID Order a] 
! | ProductlD 
| PAN 
1 1 10977 Quantity 
! Cosme ICALFkK ) | Orderip | [rinetem 
L 1 Y 
— — J 

ES CO Cu 58.00 


' 
与 模式 冲突 ProductID 


检验 并 校正 
37 


图 3-5 XML 文档 树 


2] — size. order HP order 表示 节点 的 扩展 先 序 遍历 序号 , 它 的 取 值 是 非 
连续 的 ,主要 为 结 点 的 更 新 操作 预 留 空间 ; size 表示 节点 的 后 裔 范围 。 
一 order,size 二 满足 C29 ， 

CD 对 于 文档 树 中 每 个 分 支 节 点 x, 对 于 所 有 x 的 子 节点 y, 满 足 : 
size(x)>= M size(y); 

(2) 对 任意 给 定 节点 x 和 y, 如 果 x 是 y 的 祖先 节点 ,满足 ; order(x) 
<order(y)<=order(x) +size(x). 

分 别 就 复合 元 素 ,简单 元 素 和 属性 建立 关系 表 element_table 和 value_ 
table, 按 SchemaID .docID 字段 建立 B^ -Tree 索引 ,叶子 结 点 的 每 一 项 都 是 
一 个 固定 记录 ,以 元 素 name 为 序 , 相 同 name 以 order 为 序 。 对 应 于 图 3-4 
的 关系 索引 表 如 下 ,为 了 说 明 方 便 ,这 里 SchemaID、docID 都 是 同一 个 文档 
标识 符号 , 故 省 略 。 

element_table(SchemaID, docID. name, order, size. level, sch, pre) , 对 
应 于 ea flag—0 的 元 素 ; 

value table(SchemaID. docID, name. order. size, level, sch_pre, value). 


对 应 于 ea flag-1 OR 2 的 元 素 / 属 性 ,其 中 sch. pre 列 对 应 语义 模式 树 的 模 


1 
| 
一 一 与 模式 冲突 
1 
1 
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式 结构 表 Schema Structure 中 相应 结 点 的 preorder, dé 3-3 MÆ 3-4 分 别 
列 出 了 图 3-5 XML 文档 树 定 义 的 所 有 元 素 和 属性 的 结 点 编码 信息 。 


表 3-3 复合 元 素 编码 表 element_table 


name order size level sch_pre 
Customer 1 100 1 1 
LineItem 15 16 3 5 
Lineltem 35 16 3 5 

Order 10 60 2 3 

Order 80 10 2 3 


表 3-4 简单 元 素 和 属性 编码 表 value_table 


name order size level sch_pre value 
CustomerID 2 5 1 2 ALFKI 
OrderID 11 5 3 4 10966 
OrderID 81 5 3 4 10977 
ProductID 16 5 4 6 37 
ProductID 36 5 4 6 56 
Quantity bf b 4 7 8 
Quantity 37 5 4 7 12 
UnitPrice 18 5 4 8 26.50 
UnitPrice 38 5 4 8 38.00 


4. 索引 结构 SBXI(Schema-based XML Indexing) 


基于 XML Schema 的 XML 文档 数据 索引 和 存储 结构 视图 如 图 3-6 所 
示 , 图 3-7 和 图 3-8 分 别 是 Schema 结构 索引 和 XML 数据 索引 结构 视图 。 


0 一 一 > Result 


Query Processor 


XML Schema| | XML Data 
Index Index 


Paged File 


boa] L—9| Document Loader 
| 


图 3-6 SBXI 结 构 视 图 
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-—--— 
SchemalD [ T- x menie 


\ preorder 
level 


BiTree 


图 3-7 XML Schema 索引 结构 


SchemalD,docID wran 
N name 
^ . | <ordersize> 
K: ^| value 
B^Tree 


图 3-8 XML 文档 索引 结构 


基于 关系 数据 库存 储 XML 模式 信息 和 文档 信息 ,可 以 有 效 利 用 关系 数 
据 的 索引 机 制 和 物理 存储 ,通过 sch_pre 字段 将 模式 结构 信息 与 文档 数据 信 
息 连接 起 来 , 既 节省 大 量 的 存储 空间 ,又 提高 查询 的 路 径 导航 效率 。 同 时 也 
考虑 到 文档 数据 的 更 新 维护 ,采用 Li- Moon 编码 ,为 结 点 的 插入 预 留 了 存储 
空间 。XML 数据 文档 可 能 很 大 ,存储 时 通过 过 order,size 之 和 level 标识 结 
构 信 息 部 分 ,从 空间 代价 上 优 于 XISS?? (XML Indexing and Storage 
System) Zi Mg ,而 且 查询 时 避免 了 频繁 的 JOIN 连接 操作 ,效率 上 也 优 于 
XISS 结构 57 。 

如 果 文 档 数据 中 像 Order, LineItem 这 种 重复 元 素 不 存在 时 ,完全 可 以 
省 去 二 order,size 之 和 level 结构 信息 部 分 ,只 通过 sch. pre 字段 就 可 以 完全 
标识 文档 树 结 构 。 也 就 是 说 ,如 果 一 个 XML 文档 中 不 存在 同一 层次 的 同名 
元 素 ,element_table 和 value_table 可 以 去 掉 order,size 和 level 字段 信息 。 


3.3 基于 SBXI 存储 策略 的 XQuery 查询 处 理 


XQuery 是 W3C 组 织 提出 的 XML 查询 语言 标准 ,基于 路 径 表 达 式 来 进 
行 查询 导航 ,支持 含 多 个 谓词 的 复杂 正则 表达 式 查询 ,并 提供 “//” 查 询 操作 
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符 。 对 于 XQuery 查询 ,首先 进行 路 径 有 效 性 验证 ,包括 路 径 结构 信息 和 内 
容 信 息 的 检查 ,如 路 径 表 达 式 /Customer/Order [ OrderID = 10966 ]/ 
Lineltem[ 2], 待 检验 的 路 径 信息 为 /Customer/Order[LOrderID]/LineItem 。 


3.3.1 查询 路 径 有 效 性 检验 


由 于 Schema 索引 中 记录 了 每 个 结 点 的 父 结 点 (parent_preorder) 信 息 ， 
所 以 对 查询 路 径 采 用 down-up 算法 根据 元 素 名 称 进行 模式 匹配 , 如 
LineItem-Order[ OrderID]-Customer, 45 rif] S£ f$ TE Schema 中 不 存在 ， 
则 肯定 是 不 合法 的 查询 路 径 ,返回 "无 查询 结果 !" 人 信息。 为 了 提高 查询 有 效 
性 验证 ,可 以 将 模式 语义 树 中 所 有 叶子 节点 的 路 径 信息 存 于 数据 表 中 ,便于 
查询 路 径 导 航 。 


3.3.2 XML 文档 查询 处 理 


对 于 有 效 的 路 径 查询 ,SBXI 首先 将 路 径 表 达 式 分 割 成 多 个 只 有 一 个 谓 
词 约束 的 路 径 表 达 式 , 称 为 简单 路 径 表 达 式 ,分割 后 的 每 个 路 径 表 达 式 的 查 
询 输出 结果 ,作为 后 继 路 径 表 达 式 运算 的 一 个 输入 。 例 如 ,将 上 面 的 查询 
表达 式 分 割 为 /Customer/Order[OrderID= 10966] 和 /LineItem[2] 两 个 子 
查询 ,分别 对 每 个 子 查询 进行 文档 查询 处 理 。 下 面 就 以 此 例 为 准 说 明 处 理 

采用 down-up 算法 处 理 每 一 个 简单 路 径 表达 式 ,过 程 描述 如 下 : 

(1) 确定 元 素 类 型 (type) :如 果 有 谓词 查询 ( 形 如 LOrderID 王 10966]) . 
则 查询 结 点 一 定 是 叶子 结 点 ,肯定 元 素 为 属性 或 简单 元 素 , 通 过 模式 信息 的 
Schema Structure 表 的 type 列 查 得 元 素 类 型 (如 OrderID 的 type 值 为 integer) 。 

(2) 确定 目标 元 素 记 录 集 合 : 根据 (1) 的 元 素 类 型 ,如 果 复合 元 素 
(complex), 则 在 element_table 中 得 到 所 有 该 元 素 的 集合 (每 个 元 素 用 
—order. size.level.sch pre Xr) ,否则 在 value table 中 根据 结 点 名 称 和 
value 值 找到 目标 叶子 结 点 集合 , 记 为 LF 二 {Li ,Lf2a…Lfm), 对 于 不 同 
SchemalD 和 DocID 的 结 点 分 组 处 理 . 这 里 是 同一 SchemaID 和 DocID, 所 以 
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RE —B.ILF-(11,5.3.47). 

C3) 路 径 倒序 步 进 ( 如 OrderID— >Order — > Customer) ,重复 (1) 和 (2)， 
找到 上 一 层 所 有 (如 Order, Customer) 分 支 元 素 集 合 BR 三 {br ,br ,…， 
bra (此 例 中 BR={<10,60,2,3>,<80,10,2,3>)) ,根据 以 下 条 件 在 BR 
中 找 出 所 有 LF 结 点 的 父亲 结 点 集合 BRP。( 此 例 中 BRP= {二 10,60,2， 
3 之 ) ,因为 11>10) 

条 件 : order(bri)< order(I1f,) <= size(br;)+ order(br;) and level(lf;) = 
levelCbr;) 4-1 

(4) 重复 过 程 (3), 直 到 处 理 完 一 个 简单 路 径 表 达 式 。( 查 询 结果 为 
Customer; -Orderi;-OrderIDi , 角 标 表示 order 序列 值 ) 

G) 同样 处 理 其 他 子 查询 ,如 /LineItem[2] 表 示 上 下 文 结 点 的 第 2 个 子 
结 点 Lineltem, 找 出 所 有 LineItem 结 点 记录 , 按 order 值 升序 排序 , 则 第 2 
个 Lineltem;s 即 为 查询 结果 。 

(6) 子 查询 的 连接 : 邻接 两 个 子 查询 的 连接 运算 采用 up-down 算法 ,使 
用 上 面 的 条 件 进行 结构 连接 ,产生 最 后 结果 。 

SBXI 存 储 和 索引 结构 支持 “//” 操 作 符 ,例如 对 于 形 如 /Order// 
Lineltem 的 查询 ,只 要 找 出 所 有 LineItem 的 目标 元 素 集合 LF= {二 15,16， 
3.527 ,«735.16.3.527 ) M Order 元 素 集合 BR= (过 10,60,2,3 之 ) ,再 分 别 
根据 二 order',size,level 盖 的 条 件 值 进行 结构 连接 , 即 可 完成 查询 。 

从 查询 过 程 可 以 看 出 ,由 于 文档 信息 编码 中 含有 结构 信息 ,通过 sch. pre 
将 结 点 的 order 和 preorder 连接 起 来 所 以 大 大 减少 了 结构 连接 的 次 数 ,同时 ， 
只 通过 遍历 Schema 索引 表 就 能 检验 查询 路 径 的 有 效 性 ,提高 了 查询 效率 。 


3.4 基于 关系 存储 的 XML 文档 更 新 
良好 的 数据 存储 格式 、 可 扩展 性 、 高 度 结构 化 以 及 便于 网 络 传输 等 特 


点 ,决定 了 XML 卓越 的 性 能 表现 。 通 过 网 络 实现 企业 间 的 信息 交换 是 企业 
进行 电子 商务 的 一 种 重要 手段 , 随 着 电子 商务 的 广泛 应 用 ,XML 已 经 成 为 
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事实 上 的 信息 交换 和 信息 整合 的 标准 ,能 有 效 并 且 高 效 的 存 取 XML 的 信息 
相应 的 也 变 得 越 来 越 重要 。 要 做 到 这 一 点 ,必须 要 有 一 个 能 够 准确 的 获得 
所 需 信 息 .更 新 XML 数据 源 中 数据 的 可 表达 的 查询 语言 。W3C 于 2001 年 
提出 结合 了 XML 主流 查询 语言 许多 优点 的 XQuery i$ $6097, [H JE 
XQuery 标准 没有 提供 在 一 个 持久 的 XML 文档 上 进行 更 新 操作 的 机 制 ,也 
没有 XML 商业 系统 支持 通过 XQuery 对 XML 文档 进行 更 新 。 但 是 对 于 许 
多 电子 商务 信息 系统 ,高 效 的 更 新 操作 不 可 或 缺 。 本 节 的 主要 工作 是 在 
XQuery 查询 数据 模型 的 基础 上 ,设计 Update 语句 的 语法 和 语义 ,在 此 基础 
上 对 XML 元 数据 的 存储 模型 及 更 新 机 制 提出 实现 逻辑 。 

虽然 人 们 提出 了 很 多 存储 方法 和 查询 优化 措施 ,但 作为 完整 的 XML 数 
据 库 管 理 系 统 缺少 更 新 功能 是 不 现实 的 ,而 目前 在 这 方面 的 研究 很 少 。 一 
些 基于 对 象 管理 器 的 数据 库 系统 如 Lorel, 提 供 了 对 Update 的 支持 ,但 都 是 
基于 编程 语言 的 操作 序列 ,涉及 多 个 对 象 的 插入 和 删除 ,十 分 复杂 。 文 献 
[28] 提 出 的 XML-RLCXML Rule-based Query Language) 语 言 对 更 新 部 分 
的 定义 包括 两 部 分 : 查询 和 修改 ,支持 多 变量 绑 定 和 有 序 多 文档 修改 ,但 没 
有 表述 元 数据 的 存储 模型 及 实现 机 制 。 文 献 [29] 不 仅 给 出 了 修改 XML X 
档 的 语法 定义 ,而 且 在 关系 存储 基础 上 分 析 了 各 种 修改 策略 的 性 能 。 但 是 
其 存储 模型 带 来 大 量 的 外 联 操作 ,对 于 频繁 更 新 的 XML 数据 管理 代价 太 
高 。 文 献 [30、31] 重 点 指出 了 XML Update 语言 除了 能 够 查询 和 修改 文档 
内 容 的 基本 要 求 外 ,语言 本 身 必须 简洁 .直接 面向 用 户 , 而 且 必 须 支持 XML 
命名 空间 (XML Name Spaces) 和 Xpath 技术 ,本 节 的 研究 重点 放 在 语言 定 
义 的 简洁 性 和 实现 机 制 的 开放 性 、 实 用 性 。 


3.4.1 基于 扩展 XQuery 数据 模型 的 文档 更 新 操作 


本 节 定 义 的 基于 扩展 XQuery 的 XML 更 新 语言 XML-XUL (XQuery- 
based XML Update Language) 不 仅 考虑 对 无 序 文件 更 新 支持 ,同时 考虑 对 
有 序 文件 进行 更 新 的 需要 ,并 支持 IDREFS 操作 ,尽量 使 语法 规则 与 
XQquery 的 FLWR 表达 式 相 容 ,同时 与 SQL(Standard Query Language) f£ 
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近 , 使 其 成 为 XML 的 SQL. 
1. 扩展 XQuery 数据 模型 


XQuery 数据 模型 将 XML 文档 视 为 带 有 标签 的 结 点 树 , 如 图 3-10 就 是 
图 3-9 中 XML 文档 对 应 的 文档 树 。 


— Customer 
— CustomerID- ALFKI- / CustomerID-- 
<Order> 
<OrderID>10966</OrderID> 
<Lineltem> 
<ProductID>37</ProductID> 
<UnitPrice>26.50</UnitPrice> 
</Lineltem> 
<Lineltem> 
<ProductID>56</ProductID> 
UnitPrice>38.00</UnitPrice> 
</Lineltem> 
</Order> 
</Customer> 


图 3-9 XML 文档 片段 


|: 


Customer 
CustomerID | Order 
ALFKI | OrderID | Lineltem | Lineltem 


10966 ProductID p Pr eai 


| 
CD Cu C» 


图 3-10 XML 文档 树 
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文档 更 新 的 粒度 可 以 是 文档 内 容 中 的 组 成 部 分 ,主要 包括 以 下 6 项 
内 容 : 

CD 属性 (Attribute): 属性 表示 为 (属性 名 ,属性 值 ) 的 有 序 对 ,为 了 与 
元 素 区 分 ,在 属性 名 前 添加 符号 @, 如 (@UnitPrice,26. 50)。 

(2) 元 素 (Element) : 元 素 表 示 为 由 元 素 名 和 一 系列 子 元 素 或 属性 构成 
的 序列 ,通过 符号 “一 盖 ” 表 示 元 素 与 子 元 素 之 间 的 关系 ,如 (Lineltem 一 过 
ProductID,@ UnitPrice) 。 

(3) 文本 (CDATA): 指 CDATA 类 型 的 大 文本 数据 。 

(4) 处 理 指 令 (Processing-Instruction) : 表示 为 (处 理 指令 名 ,处 理 指 令 


信息 ) ,如 所 ?cocoon-process type =" xsp"?> Ji 4 KIR H C cocoon-process. 


" XSp' Jis 

(5) 标识 符 引 用 (IDREF IDREFS): IDREF 类 型 属性 的 值 引 用 ID 类 
型 属性 值 , 隐 含 父子 关系 ,表示 为 (@IDREFS JA fE 4 Fk — — 0 ID 属性 值 
1 (QID 属性 值 2 ee Js 

(6) 注释 (Comment) :类 似 于 文本 的 字符 串 值 。 


2. XUL 操作 


XUL 提供 的 更 新 子 操作 UpdateOp 包括 : 

(D) DeleteCnode) : 删除 目标 对 象 node. node 可 以 是 上 述 6 项 内 容 之 
一 ,如 果 node 是 一 个 复合 元 素 , 自 动 先行 将 子 元 素 或 属性 删除 ; 如 果 是 一 个 
被 引用 的 ID ,也 要 将 引用 删除 ; 如 果 是 IDREF, 只 是 将 IDREFS 中 的 该 引用 
移 走 。 

(2) Rename(node, name): 将 目标 对 象 node 更 名 为 name. Rename 不 
能 操作 CDATA 和 IDREFS 中 的 一 个 IDREF 值 .但 可 以 对 整个 IDREFS 重 
新 命名 。 

(3) InsertBefore(ref, content): 仅 应 用 于 有 序 文档 。 如 果 ref 是 目标 对 
象 的 一 个 元 素 或 者 CDATA( 不 能 为 属性 ,因为 属性 无 序 ) ,那么 content 也 必 
须 是 一 个 元 素 或 CDATA ,将 content 直接 插 在 ref 的 前 面 ; 如 果 ref 是 
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IDREFS, 则 content 必须 是 一 个 ID, 将 ID dfi YE {ref}. position (i) 之 前 。 
position(i) 可 以 是 系统 或 用 户 定义 的 函数 。 

(4) InsertAfter(ref,content) : 与 InsertBefore(ref,content) 定 义 类 似 ， 
不 同 是 将 content 直接 插 在 ref 的 后 面 。 

(5) Append (content); 仅 用 于 无 序 文档 。 在 目标 对 象 尾 部 追加 
content, content 可 以 是 上 述 6 种 内 容 之 一 ,但 插入 属性 时 content 是 不 能 与 
已 有 属性 同名 。 

(6) Replace (node, content); 对 于 有 序 文档 ,等 价 于 先 InsertBefore 
(node,content) 操 作 然 后 执行 Delete(node) ,对 于 无 序 文档 ,等 价 于 先 执 行 
Append(content) 然 后 执行 Delete(content) 操 作 。 


3.4.2 XUL 操作 语义 和 实例 


1. XUL 的 FLWR(FOR-LET-WHERE-RETURN) 语 法 


将 以 上 6 个 操作 映射 为 XQuery 语言 的 FLWR 语法 ,用 EBNF 描 
XN. 


FOR $ bindingl IN XPath-erpr, 

LET $ binding := XPatlcexpr, -.. 
WHERE predicatel, ... 

UPDATE $bindingl (subOp (, subOp) * 上 


这 里 的 subOp 指 6 种 原 语 子 操作 ,描述 如 下 : 


DELETE $node | 

RENAME $ node TO name | 
INSERTcontent BEFORE | AFTER $ node | 
APPEND content | 

REPLACE $ child WITH $ content | 

FOR $ binding' IN XPath-subexpr, -- 
WHEREbpredicatel, . . . updateOp 


UPDATE EN RIRE, MEERA XML 结构 内 实现 多 层次 更 新 
操作 。 
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2. XUL 操作 细则 和 实例 


示例 1: 删除 操作 。 假 定 图 3-11 中 文档 片段 来 自 文件 ware. xml, 文 档 
根 元素 为 Customer, 下 面 语句 完成 删除 单价 小 于 30 的 Lineltem 元 素 。 


FOR $ item INdocument( "ware. xml") //Lineltem 
LET $ price := $ item/UnitPrice 
WHERE $ price <30. 00 
UPDATE $ item { 
DELETE $ item — 7 ProductID 
DELETE $ item — > (&UnitPrice 
DELETE $ item ) 


Lineltem 


ProductlD UnitPric 


图 3-11. 插入 Lineltem 元 素 


示例 2: 插入 操作 。 下 面 语句 完成 给 ID 为 “ALFKI” 的 Customer 元 素 
插入 一 个 属性 (@PO,"9572658”) 。 


FOR $c INdocument( "ware. xml")/Customer[CustomerID = "ALFKI"] 


UPDATE $c{ 
APPEND new attribute( (9? PO, "9572658")] 


示例 3. 插入 一 个 如 图 3-11 所 示 的 Lineltem 元 素 ,保证 ID 有 序 。 


FOR $ item INdocument( "ware. xml")//Lineltem 
LET $ p := $ item/ProductID 
WHERE $ p2» — 40.00 
UPDATE $ item( 
new. element( ProductID, 40) 
new attribute( (9 Unit price, 32.45) 
INSERT (LineItem — > ProductID, (9 Unitprice ) BEFORE ( $ item }. first)] 


也 可 以 使 用 INSERT AFTER 操作 .筛选 所 有 ProductID < 40 的 
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Lineltem 元 素 ,在 最 后 一 个 元 素 的 后 面 插入 , 即 可 完成 有 序 插入 。 
示例 A: 重 命名 操作 。 下 面 语句 完成 将 所 有 OderID 元 素 的 名 字 改 为 
OderNo, 
FOR $o INdocument( "ware. rml")/Customer/Order/OrderID 
UPDATE $of 
RENAME $o TO OderNo) 
示例 5: REMH., EIER E UOS ARI ICH TER SEE (1 4E P oos 9E 
XUL WREEKT. W: 
FOR $c INdocument( “ware. xml” )/Customer 
$order IN $c/Order 
UPDATE $c { 
new. ref( (9 PONo — 1001) 
APPEND new. attribute( (9 PO, (9 PONo) 
FOR $item IN $order/LinelItem[2] 
UPDATE $item{ 
REPLACE 40.00 WITH $ item — > (UnitPrice] ) 
此 语句 在 Customer 结 点 插入 一 个 引用 属性 @PO ,指向 一 个 ID 属性 @ 
PONo, 值 为 t001, 同 时 在 将 第 2 个 Lineltem 元 素 的 UnitPrice 属性 值 变更 
为 40.00, 


3.4.3 基于 触发 器 机 制 的 更 新 实现 


为 了 保证 数据 的 完整 性 和 一 致 性 ,更 新 操作 必须 是 “安全 “有效 " 的 ,这 
就 需要 更 新 粒度 层 的 锁定 原则 和 数据 类 型 及 数据 路 径 结构 的 一 致 性 检查 。 

DTD[ W3C 1998] 和 XML SchemaLW3C 2001b] 定 义 了 文档 结构 ,以 此 
作为 "有效 ?检查 的 模式 规范 。 本 小 节 从 两 个 方面 实现 在 数据 更 新 过 程 中 的 
先 验 过 程 55 ,逻辑 架构 图 如 图 3-12 所 示 。 


1. XQuery 处 理 器 的 语法 分 析 


Xquery 处 理 器 主要 完成 XUL 语句 的 语法 分 析 , 同 时 根据 XML Schema 
模式 信息 进行 数据 类 型 和 路 径 结构 匹配 的 有 效 性 验证 ,如 元 素 出 现 的 次 数 、 
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XML-XUL 命 令 
或 命令 文件 类 SAX 接 口 D rins 
xvni | XML 文档 J | | LI 


| | | | Xquery 处 理 器 [ ExecUML() 


AddSchema() AddDocument() | 


RDBMS 


SPEC | DATA 更 新 规则 | 


| | | | 触发 器 存储 过 程 


图 3-12 XML 文档 更 新 实现 的 逻辑 架构 
谓词 操作 符 的 类 型 匹配 .检索 路 径 的 合法 性 等 。 
2. 更 新 执行 时 自动 触发 更 新 规则 


根据 XML 文档 映射 到 关系 数据 库 中 的 规则 确定 更 新 锁定 粒度 ,如 果 映 
射 为 多 表 , 则 锁定 粒度 为 表 ; 如 果 映 射 到 单 表 (可 以 根据 元 素 值 的 类 型 对 表 
进行 横向 分 割 ), 则 锁定 粒度 为 记录 。3. 2 节 讲 述 了 如 何 对 文档 结 点 采用 Li- 
Moon 编码 进行 表 存 储 而 且 有 利于 文档 更 新 的 实现 策略 。 

针对 存储 映射 方法 制定 一 套 ECA (Event Condition Action 事件 一 条 
件 一 动作 规则 ,类似 于 关联 规则 的 更 新 规则 ,定义 为 相应 的 触发 器 ,在 更 新 
语句 执行 时 自动 触发 。 例 如 试图 删除 具有 元 素 或 属性 的 复合 元 素 时 ,应 该 
先行 删除 其 子 元 素 ; 再 如 试图 删除 标识 符 引用 时 (IDREF) ,只 能 从 IDREFS 
列表 中 将 该 项 移 走 ,特别 是 更 新 嵌 套 时 ,有 些 操作 是 严格 有 序 的 。 


3. 更 新 操作 的 实现 


更 新 操作 的 实现 是 在 University Pennsylvania 的 XML 查询 系统 
Kweelt?? ffjAE ili E ££ vr DJ XQuery 实现 对 XML 文档 更 新 的 系统 。 工 作 
流程 是 : 输入 XQuery 更 新 操作 语句 , 即 XML-XUL 命令 ,通过 XQuery 处 
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理 器 获取 一 个 文本 格式 的 先 验 XQuery 更 新 语句 ,通过 ExecUML() 处 理 部 
件 执 行 获取 的 新 语句 。 上 述 步 又 使 用 了 两 个 部 件 来 解决 传统 更 新 操作 中 的 
问题 。 一 个 部 件 是 XQuery 处 理 器 , 它 接受 一 个 XQuery 更 新 语句 , 即 一 个 
FLWR 表达 式 ,输出 一 个 添加 了 有 效 性 判断 的 XQuery 更 新 语句 ; 第 二 个 部 
件 是 XQuery 更 新 执行 引擎 ExecUML O ,由 Kweelt 系统 修改 扩展 而 来 。 
XQuery 更 新 执行 引擎 接受 三 个 输入 ,一 个 XML 和 XML Schema 文档 、 一 
个 符合 XQuery 更 新 语法 的 XML 更 新 操作 语句 和 基于 触发 器 的 更 新 规则 。 
其 中 更 新 语法 是 扩展 得 到 的 。 如 果 用 户 不 需要 XML 数据 加 入 限制 条 件 ,可 
以 不 输入 XML Schema 文档 。 同 时 XML 更 新 操作 语句 也 可 以 不 经 过 先 验 
XQuery 生成 器 得 到 ,但 这 样 无 法 保证 有 效 性 。 两 个 部 件 功能 合 在 一 起 才能 
形成 功能 完全 的 XML 更 新 系统 。 

对 Kweelt 系统 中 的 Java 类 进行 修改 ,使 其 可 以 识别 更 新 语法 中 的 关键 
字 , 同 时 加 入 执行 这 些 关键 字 操 作 的 类 和 方法 。 

第 一 步 : 使 Kweelt 系统 能 理解 扩展 的 XQuery 更 新 语法 。 通 过 JavaCC 
文件 QueryParser. JJ (Java Compiler Compiler 文件 , 纯 Java 的 词法 分 析 生 
成 器 ) 存 放 Kweelt 系统 中 用 到 的 XQuery 语法 ,JavaCC 通过 QueryParser 
.JJ 文件 生成 新 的 Java 类 ,用 这 些 Java 类 来 实现 对 输入 XQuery 查询 的 解 
析 ,生成 语法 树 。 修 改 QueryParser. JJ 文件 使 其 识别 XQuery 更 新 语法 ,加 
和 人 文件 中 的 更 新 语法 用 函数 的 方式 定义 ,与 可 能 输入 的 各 Query 更 新 操作 
相对 应 。 

第 二 步 : 扩展 Kweelt 系统 函数 库 , 定 义 所 有 更 新 操作 所 需 的 函数 ,函数 
中 包含 类 似 EBNF 的 语法 和 使 用 特定 标识 对 其 他 函数 及 Java 代码 的 调用 。 
QueryParser. JJ 文件 中 一 个 包含 FLWR 表达 式 的 函数 如 下 : 

QueryEx pression flwr_expression() 

| QueryErpression e; 

Vector sort — null; 
QueryEzx pression where —null; 


Binding b; 
Vector bindings —new Vector( ) 
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} // 构 造 FLWR 表达 式 类 


<FOR> b= for binding(true) {bindings.addElement(b); } 
(COMMA > b= let. binding( false) 
fbindings. addElernent(b); } // 在 LET 语句 中 对 绑 定 变量 b 的 处 理 


[<where> where— where. clause()] // XT where 子 句 的 处 理 
一 RETURN > e—query expression( ) // Xf return 子 句 的 处 理 
[sort = sort_clause_list()] // 对 sort 命 令 的 处 理 


return new FLWREx pression( bindings, where, e, sort); } 
// 返 回 经 过 处 理解 析 的 FLWR 表达 式 
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第 4 章 基于 频繁 模式 挖掘 的 XML 
网 页 分 类 技术 


要 实现 Web 的 分 类 检索 ,首先 解决 网 页 分 类 问题 。 XML 文档 是 文本 内 
容 信息 与 结构 信息 的 综合 体 ,XML 文档 分 析 区 别 于 传统 的 文本 分 析 的 关键 
在 于 结构 信息 的 获取 与 利用 ,针对 一 般 文 件 的 分 类 方法 不 但 体现 不 出 XML 
文件 的 优点 ,更 可 能 使 得 分 类 效果 相对 于 普通 文本 效果 更 差 ,因此 有 必要 研 
究 一 种 专门 针对 XML 文档 的 分 类 方法 。 

近年 来 ,国内 外 研究 者 对 XML 文档 等 半 结 构 化 数据 的 分 析 处 理 给 予 了 
越 来 越 多 的 关注 ,但 文本 挖掘 方面 的 研究 成 果 相 对 较 少 。Yi 等 人 提出 了 一 
种 用 于 半 结 构 化 文档 分 类 的 扩展 向 量 模型 ,采用 散 套 定义 的 向 量 描述 文档 
元 素 , 通 过 概率 统计 方法 进行 分 类 5 ,Denoyer 等 人 提出 了 利用 贝 叶 斯 网 络 
模型 进行 半 结 构 化 文档 分 类 的 方法 外 ,Zhang 等 人 采用 编辑 距离 计算 XML 
文档 相似 性 5 ,Flesca 等 人 将 结构 信息 看 作 时 序 关系 ,通过 时 序 分 析 计 算 文 
档 结 构 相 似 性 中 ,Zaki 等 人 通过 挖掘 频繁 子 树 外 提出 了 代价 敏感 的 结构 规 
则 抽取 方法 外 ,对 半 结 构 化 数据 分 类 取得 较 好 的 效果 。 但 是 这 些 方法 仅 研 
究 文档 的 结构 关系 ,没有 考虑 文本 内 容 , 或 者 针对 特定 的 挖掘 技术 ,虽然 想 
法 新 颖 ,但 推广 性 较 差 。 

本 章 在 XML 文档 结构 相似 度量 " 汪 基 础 上 ,结合 XRules 规 则 无 序 频 
繁 子 树 挖掘 算法 四 和 N 层 向 量 空间 模型 "2 提出 一 种 综合 利用 XML 分 层 
结构 信息 和 关键 词 内 容 信息 "进行 文档 分 析 的 数据 模型 一 频繁 结构 层次 
向 量 模型 (Frequent Structure Hierarchy Vector Model. FSHVM) ,通过 构 
造 决策 表 , 利 用 粗糙 集 理论 的 属性 约 简 达 到 特征 值 降 维 目的 中, 实现 了 基 
于 规则 的 分 类 方法 。 实 验 表明 ,此 方法 不 仅 具 有 更 高 的 准确 性 ,而 且 计 算 代 
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价 更 小 。 


4.1 频繁 模式 挖掘 算法 TreeMiner* 


在 频繁 结构 向 量 模型 中 ,将 数据 库 文档 集合 中 所 有 频繁 子 树 ( 模 式 ) 视 
为 文档 结构 的 特征 空间 ,相当 于 传统 的 向 量 空间 模型 中 的 关键 词 特征 。 在 
传统 的 向 量 空间 模型 中 ,如 何 抽取 特征 关键 词 是 一 个 关键 的 技术 问题 ,而 在 
频繁 结构 向 量 模型 中 ,如 何 挖掘 频繁 模式 也 是 一 个 同等 重要 的 技术 问题 。 


4.1.1 频繁 模式 挖掘 算法 TreeMiner 


挖掘 频繁 子 树 的 算法 "中 是 基于 最 右 扩 展 递增 模式 的 ,基本 思路 是 ; 首 
先 获得 1-Subtrees, 即 含有 一 个 结 点 的 子 树 ,通过 计算 每 个 标签 的 支持 度 , 选 
出 候选 频繁 结 点 。 然 后 通过 共享 前 级 的 类 结 点 右 扩 展 生成 2-Subtrees, 通 过 
类 结 点 的 范围 列表 连接 计算 子 树 支持 度 从 而 选择 候选 类 ,为 下 一 层 的 类 扩 
展 做 数据 输入 。 依 次 递归 由 k- 频 繁 子 树 生成 (k 十 1)- 频 繁 子 树 ,直至 产生 所 
有 频繁 子 树 。 


1. 频繁 子 树 扩展 的 相关 技术 


由 k- 频 繁 子 树 生成 (十 1)- 频 繁 子 树 时 ,首先 需要 确定 扩展 类 , 即 候选 扩 
展 结 点 集合 。 假 定 P 指向 kA TRN &— 1 个 结 点 的 前 级 编码 (prefix)， 
以 [Pj 表示 其 类 结 点 集合 ,其 中 每 个 元 素 形 如 (z,i) 形 式 ,z 表示 扩展 结 点 
的 标签 ,i 表示 扩展 结 点 的 扩展 位 置 。 

TEE: 4-1 类 扩展 (Class Extension): (x, DAY. HUP h 类 集合 中 的 任 
意 两 个 结 点 元 素 , Pr 表示 (zx, 让 的 扩展 类 ,两 个 结 点 的 连接 运算 定义 为 
ZX@y, 运 算 具 有 以 下 性 质 : 

d) i=j 时 ,如 果 前 级 P 不 为 空 , 在 LPxj 中 添加 结 点 (y, 站 和 (y,j 十 1)， 
如 果 为 空 , 只 添加 (y,j 十 1); 

(2) 4 i>j 时 ,在 [LPxj] 中 添加 结 点 (y,7); 
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O) 当 ;i< 时 ,不 作 任 何 操作 。 

性 质 4-2 范围 列表 连接 (Scope-List Join): [Px] 类 集合 中 每 个 元 素 都 有 自 
己 的 范围 列表 ,以 六 Cx) 表 示 , 集 合 中 每 个 元 素 以 三 元 组 编码 ( 见 定义 4-3) , 范 
围 列 表 的 连接 运算 定义 为 巡 Cx) 109€ G0 ,具有 以 下 性 质 : 

Q) 如 果 ty tc tid BAS si x、y 是 在 同一 文档 树 工 中 。 

(2) 如 果 highCz) 7 — highCy) | WER T Pr 不 是 > 的 祖先 结 点 。 

(3) W lr 三 ==ly H ux —uy.Bll scope(y)C scope(Cz) ,说 明 在 树 T 
中 > 是 xz 的 后 代 结 点 ,此 时 进行 内 部 连接 (in-scope link)。 在 [Pxj 类 扩展 结 
点 的 范围 列表 中 添加 结 点 (ty,{match labels U Zz} ,scope(y))( 此 时 范围 列 
表 与 频繁 结 点 的 范围 列表 有 些 区 别 , 没 有 了 层次 信息 ,添加 了 匹配 标签 ) 。 

(4) 如 果 ur — Ly. Bl scopely)<scopelr) ,说 明 在 树 工 中 > 是 zz 的 兄 
弟 结 点 ,此 时 进行 外 部 连接 (out-scope link)。 在 LPxj] 类 扩展 结 点 的 范围 列 
表 中 添加 结 点 (ty,{match labels Ur} ,scopeCy) ) 。 


2. TreeMiner 频繁 子 树 挖掘 算法 


TreeMiner (D, minsup): 

Fl = { frequent l-subtrees] ; 

F2 = ( classes [P] | of frequent 2-subtrees) ; 
forall | [P]; € E do Enumerate-Frequent-Subtrees( [P] 1) ; 
Enumerate-Frequent-Subtrees( [ P] ) : 

for eachelement (x; i) € [P] do 

IPx] —$; 

for eachelement (y; j) € [P] do 
R-—í(x;iGo D 

LR) = (L(x) flo LCD); 

ifforany R € R, R is frequent then 

[Pz] = Pz] U(R); 


Enumerate Frequent-Subtrees( [Px] ) ; 

上 述 为 TreeMiner 算法 高 层 结构 描述 ,主要 包括 频繁 项 F1(1-subtrees) 
的 计算 和 2 级 频繁 子 树 (2-subtrees)F2 的 计算 ,然后 通过 深度 优先 枚 举 每 个 
类 [Pj € F2 的 其 他 频繁 子 树 , 是 一 个 递归 调用 的 过 程 。 当 然 ,假定 初始 数 
据 库 是 一 个 已 经 水 平 编码 的 形式 (详细 内 容 请 参阅 文献 [20])。 


98 本 体 建 模 与 语义 Web 知识 发 现 


4.1.2 TreeMiner 算法 的 改进 


TreeMiner 算法 的 时 间 和 空间 复杂 性 与 数据 库 D 的 大 小 关系 很 大 , 计 
算 Fl 时 ,使 用 一 维 数组 ; 计算 F2 时 ,使 用 矩阵 表示 F1XF2, 时 间 复 杂 性 
每 个 文档 树 O(n?) ,其 中 z 一 1T|。 计 算 FR 时 ,如 果 类 [Pj] 集合 有 个 元 素 ， 
则 时 间 复 杂 性 将 是 OC ,其 中 是 范围 列表 的 长 度 。 算 法 的 空间 复杂 性 
要 与 初始 范围 列表 Scope-List 和 当前 类 [Pj] 及 候选 类 [Pxj] 的 存储 有 关 。 为 
了 使 之 适合 大 文档 集合 的 频繁 子 树 挖掘 ,提高 挖掘 效率 ,我 们 对 其 进行 改 

进 ,以 降低 时 间 复 杂 性 

对 TresMiner JE HE WEA- WR E T 中 频繁 结 点 的 数据 结构 增 
加 了 层次 信息 编码 ,有 利于 范围 列表 连接 时 快速 判断 其 祖先 -后 代 关 系 , 只 
有 忆 (y) 中 结 点 是 忆 (x) 结 点 的 后 代 结 点 时 才 有 可 能 进行 内 联 和 外 联 的 测 
试 , 这 样 排除 了 大 量 元 余 运算 ,提高 了 算法 性 能 。 如 结 点 1 与 结 点 4 构成 
2-Subtree(1,4, — 1) ,但 是 结 点 4 与 结 点 1 不 是 嵌入 子 树 ,不 需要 连接 操作 ， 
@ 本 着 “ 先 预 算 支 持 度 , 后 进行 类 扩展 ”的 原则 ,将 类 扩展 的 结 点 连接 和 频繁 
子 树 支持 度 的 范围 列表 连接 运算 顺序 重新 做 了 调整 ,这 样 对 不 存在 的 子 树 
或 者 不 频繁 的 子 树 不 再 进行 类 扩展 运算 ,大 大 提高 了 挖掘 效率 。 

改进 的 频繁 子 树 挖掘 算法 : 

TreeMiner* (D, minsup) 


Input: triple code set D of document trees, minimum support of frequent subtree 
Output: prefix code of all frequent subtrees S andóz( S) 


1: compute support of each label, choose frequent labeled nodes F1; 

2: built candidate class extension set PO— ((Fl, —1)); 

3: prefix[P0] = () ;code[P0,k] = (F1, —1); 

4: for each element of [P0] do Enumerate-subtrees( [P0]) ; 

5: Enumerate-subtrees( [P]) 

6: ( For each element (x,i) d P] do 

2/5 { [Pz] =$; 

8: For each element ( y, j) P do 

9: if high(x) ^ high( y) then // 测 试 y 是 x 的 后 代 结 点 
10: Gc) =£ NOL); //x 结 点 与 y 结 点 的 连接 运算 
115 if S is frequent then //S 是 否 频 繁 
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13: (R—G. Q.D 

13: [Px]— [Px]U {R}; //3 R Px% 
14: k+=l; 

I5: build prefix[Px] and code[Px, k]; 

16: } 

17: } 

18: Enumerate subtrees( [Px]) ; // y WAVE HI 
19: } 

20: } 


4.1.3 TreeMiner* 算法 挖掘 处 理 实例 


图 4-1(a) 所 示 数 据 库 D 有 三 个 文档 ,用 户 最 小 支持 度 为 minsup — 7096 
(为 了 简化 问题 ,最 小 支持 度 取 值 较 大 ,一 般 情况 下 取 0. 50 ,挖掘 频繁 子 树 过 
程 如 下 : 

第 一 步 , 通 过 扫描 数据 库 ( 遍 历 文档 树 ) 得 到 每 个 结 点 的 三 元 编码 ,具有 
相同 标签 的 结 点 构成 邻接 表 , 称 为 范围 列表 (scope-list) ,采用 图 4-1(b) 的 数 
据 结 构 进 行 存储 ,LL 二 {1,2,3,4,5)。 通 过 范围 列表 很 容易 计算 出 结 点 标签 
1、2、3、4 的 支持 度 均 为 100% ,为 频繁 结 点 ; 标签 5 结 点 的 支持 度 只 有 1/3， 
小 于 70%, 不 是 频繁 结 点 , 故 Fl={1,2,3,4),P0={<1, 一 1>,<2?2, 一 1>， 
<3, —1>,<4,—1>). OW TER) 1—3 íT) 

第 二 步 , 递 归 调 用 Enumerate-subtrees C) 过 程 , 由 k-Subtrees 构造 
(k 十 1)-Subtrees。 以 2-Subtrees 为 例 ,P0 中 4 个 结 点 任意 两 个 结 点 都 有 可 
能 进行 连接 ,构成 含有 两 个 结 点 的 子 树 , 所 以 算法 中 (第 6、8 行 ) 对 任意 两 对 
元 素 都 要 枚 举 , 包 括 自身 之 间 。 但 并 不 是 任意 两 个 元 素 都 能 构成 子 树 , 如 
(1, 一 1) 和 (4, 一 1) 可 以 构成 2-Subtrees, 反 之 则 不 能 构成 2-Subtrees , 因为 
标签 1 是 4 的 祖先 结 点 。 为 了 减少 范围 列表 的 连接 次 数 , 算 法 通过 结 点 的 层 
次 关系 直接 判断 出 子 树 的 可 能 性 (第 9 行 ), 只 有 可 能 构成 子 树 的 结 点 才 进 行 
连接 ,排除 了 宛 余 计算 ,同时 对 构成 的 子 树 只 有 频繁 子 树 才 是 所 需 结 构 ,所 
以 当 11 行 条 件 满足 时 才 进 行 类 扩展 .通过 这 两 个 条 件 的 限制 ,大 大 减少 了 
算法 的 时 间 开 销 。 如 构造 2-Subtrees 时 , 子 树 (2,1, 一 1),(3,2, 一 1) 等 子 
树 支 持 度 均 小 于 70% ,不 是 频繁 子 树 , 类 扩展 时 过 滤 掉 。 见 图 4-2 中 的 
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(b) Scope-list 


图 4-1 文档 森林 及 结 点 数据 结构 


2-Subtrees 构造 过 程 。 

第 三 步 ,对 每 个 频繁 子 树 处 理 并 存储 其 前 级 编码 prefix 和 拓扑 编码 
code( 第 14、15 行 )。 

第 四 步 , 枚 举 调 用 Enumerate-subtrees([Pxj) 过 程 ,直至 挖掘 出 所 有 频 
繁 子 树 ,如 图 4-2 中 的 3-Subtrees 和 4-Subtrees。 

图 4-2 给 出 了 数据 库 D 的 全 部 频繁 子 树 的 挖掘 过 程 ,按照 结 点 数 和 支持 
度 大 小 顺序 依次 为 : 

S1:12-134-1-1,S2:12-14-1,S3:12-13-1,S4:134-1-1,S5:12-1,S6:14-1, 
S7:13-1,S8:34-1 
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r--------------- 4 EA Mg TR TEE 7 
1 I-Subtrees i 2-Subtrees 2-Subtrees 
! Prefix={} 1 Prefix={1} Prefix={3} 
| PO={(1,-1),(2,-1),(3,-1),(4,-1)} ! P1=£(2,0),(3,0).(4.0) } P3={(4,0) } 


每 个 元 素 的 scope-list 如 下 所 示 


I 
1 
I 
Į 
1 
1 
1 
| 
1 
sos 
1 
I 
$ 
1 
1 
|! 
1 
1 
1 
1 
I 
! 


I 
1 
1 

| 每 个 元 素 的 scope-list 如 图 所 示 | ， 每 个 元 素 的 scope-list 如 下 所 示 
 Infrequent elements: (5,-1):5 1 
| 
上 


I 

| 

| 

1 

I 

I 

I 

I 

L am 
casi dci a imp.s)-]ooe — [70 [=100% | 
| TEE mm Tit 1 
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I 

I 

1 

I 

1 
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I 
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I 
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2 

! Infrequent elements 1.1422] 2.0.1.2] 2,6,[7,7] 


1 
1(2.0)22-1 (3,0)2 3-1 


1 
1 
| 2- Subtrees 
1 Prefix={4} 无 Infrequent elements Infrequent elements 
| (1,0):1 1-1 Q,032-1 
Lc A EP NES ENS NT PODES J 
--------------- ʻr-----------------r---------------) 
13-Subtrees | 3-Subtrees | | 3-Subtrees 3-Subtrees | 
| Prefix- [12] LI Prefix={13} 1| Prefix={14} Prefix={34} | 
i PIGO) ———— al 11 PIRN) ji Pl={} Pl={} l 
| 每 个 元 素 的 seopeist 如 下 所 示 ”1 1 每 个 元 素 的 seoperlist 下 所 示 — 0500000 i 
1 H 三 二 全 二 ; 
i d 1 ! | 4-Subtrees i 
1 Prefix={123} 1 
! z(D.S) 2109 =100% ! 11 
|" poss Ue HOO xD.) T ~70% n en 
i 
1 11 m 1 
[| 
| | oons | G0L[3]| — i! 0,02,3.3] n i 
| [zoen | M2B3I| i 20917 11 [091233] | 
1 | 2,05,[6,7] | 2,02,[7,7] n 2467. 11 | 2267.7] PE 
上 E 245467] | 2057.7] i 11 | 2056177] 7 9108. | 
| 2457.7] ! i 11 | 2456477] ! 
' I 
Ll rem ene a S Mec LE JL--------------- J 


图 4-2 2-Subtrees、3-Subtrees 和 4-Subtrees 构成 


4.2 文档 结构 的 相似 度 计 算 


由 于 具有 结构 化 、 可 扩展 性 、 跨 平台 性 等 特点 , 越 来 越 多 的 数据 标准 采 
用 XML, 如 MathML、NewsML、OWL、LOGML、ebXML、cnXML 等 , XML 
成 为 信息 存储 和 交换 的 主要 形式 ,继而 从 XML 文档 结构 中 获取 所 需 的 模式 
成 为 XML 应 用 领域 的 研究 热点 ,如 对 XML 文档 结构 挖掘 可 以 为 生物 信息 
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学 、 网 络 日 志 分 析 、Web 结构 分 析 和 分 类 等 提供 重要 知识 ,其 中 XML 文档 的 
结构 相似 度量 是 XML 结构 分 析 的 基础 核心 问题 。 已 有 的 XML 文档 结构 相 
似 性 度量 主要 包括 距离 编辑 法 所 5 Bc £8 VC e pA 和 时 序 分 析 法 5 ,基本 
上 都 是 将 XML 文档 视 为 一 棵 标记 树 ,编辑 距离 的 思想 是 把 一 个 文档 转化 为 
另 一 个 文档 所 需 操 作 ( 更 名 、 删 除 . 插 入 ) 的 最 小 代价 作为 度量 标准 ,通过 图 
匹配 算法 计算 相似 性 , 当 文 档 很 大 时 ,计算 代价 太 高 ; 而 路 径 匹 配 法 基于 边 
匹配 ,采用 Jaccard 系数 来 度量 ,但 度量 相似 性 的 精度 不 高 ; 时 序 分 析 法 把 
XML 文档 结构 表示 为 一 个 时 间 序 列 ,每 个 标签 的 出 现 相应 于 一 个 脉冲 , 通 
过 相应 傅立叶 变换 来 计算 文档 间 的 相似 性 ,但 是 这 种 方法 无 法 排除 标签 的 
多 次 重复 出 现 对 计算 结构 相似 度 的 影响 。 

文献 [20] 提 出 了 一 种 高 效 挖 掘 频繁 子 树 的 迭代 算法 TreeMiner, 能 够 在 
用 户 给 定 的 最 小 支持 度 阀 值 内 找 出 所 有 的 频繁 子 树 ,文献 [9] 给 出 了 一 种 控 
掘 无 序 频繁 子 树 的 高 效 算 法 。 本 节 在 TreeMiner 算法 基础 上 结合 文本 分 类 
的 向 量 空间 模型 (Vector Space Model) 提出 了 XML 文档 频繁 结构 向 量 模 
AJU] (Frequent Structure Vector Model. FSVM) ,通过 频繁 结构 单元 在 文档 
中 出 现 的 频 度 和 权重 定义 了 文档 结构 相似 度 。 


4.2.1 频繁 结构 向 量 模型 


文献 [8] 采 用 了 向 量 空间 模型 来 表示 XML 文档 ,提出 结构 链接 向 量 模 
型 ,将 XML 文档 中 的 每 个 结构 单元 看 作 一 个 向 量 , 类 似 于 VSM 模型 的 一 个 
文档 ,但 没有 就 如 何 选择 结构 单元 给 出 具体 方法 ,只 简单 将 每 个 结 点 作为 基 
本 结构 单元 ,不 能 完备 表示 XML 文档 结构 信息 。 本 节 将 给 出 频繁 结构 向 量 
模型 FSVM 的 表示 及 XML 文档 结构 相似 性 度量 方法 ,应 用 TreeMiner 算 
法 挖掘 的 频繁 子 树 表示 结构 向 量 空间 中 的 结构 单元 。 

将 每 个 XML 文档 看 作 一 棵 带 有 标签 的 有 序 树 T=. V, BL) HP r 
表示 根 结 点 ,V 表示 树 中 结 点 集合 ,B 表示 边 的 集合 ,L 表示 所 有 结 点 标签 的 
集合 。 那 么 XML 文档 集合 D( 又 称 数据 库 ) 视 为 有 序 树 的 集合 ,D={ 10,11， 
12) , 称 为 文档 森林 ,其 中 每 棵 树 有 唯一 的 标识 tid. tid € {10,1,2,…}), 分 
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别 表 示 树 10.11.42. 
定义 4-1 有 序 树 (Ordered Tree), XML 文档 有 序 树 T — Gr. V.B.L) 
H, V— Un am m ena) mid € (0.1.2, ) ,按照 深度 优先 先 根 序列 
编号 ,| 工 | 表示 树 T 的 大 小 , 即 结 点 个 数 。 结 点 不 区 分 元 素 和 属性 , 均 采 用 圆 
ARR ,每 个 结 点 的 标签 用 集合 工 一 {1,2,3，…… m) KIR ,不 同 的 结 点 可 以 
有 相同 的 标签 。 每 个 边 4 二 一 z,y> EB, 是 一 个 有 序 结 点 对 ,其 中 zx 是 y 的 
父 结 点 。 图 4-3 即 为 一 棵 有 序 树 , 其 中 x 二 n0,V 二 {n0,nl,n2,n3,n4,n5， 
n6},B= («n0,n12,«nl,122,-« n2,n32,-«n2,n42,«nl,n5,7— 
<n0,n6>},L={1,2,3,4},|T|=7。 
定义 4-2 树 的 拓扑 编码 表示 (Topology code)。 按 照 先 根深 度 优先 遍历 
树 中 所 有 结 点 的 标签 序列 称 为 树 的 拓扑 编码 表示 ,用 一 1 表示 从 一 个 结 点 回溯 
到 父 结 点 的 序列 ,图 4-3 所 示 有 序 树 的 拓扑 编码 为 "1131-12-1-14-1-12-1”。 
T(a tree in D) 
n0,s-[0.6],h-0 Q 
nLs-[1,5]h-1(1) 
n2s-[.4]h-2(3) (4) nss- [5.5] h-2 
n3,s=[3,3].h=3 (01) — (2) n4,s=[4.4].h=3 


Topology code:1131-12-1-14-1-12-1 


n6,s-[6.6],h-1 


图 4-3 XML 文档 树 结 点 编码 


定义 4-3 三 元 组 编码 (Triple code)。 有 序 树 中 每 个 结 点 采用 三 元 组 
(tid,scope,high) 编 码 ,tid€D; scope 为 结 点 的 辖区 范围 ,定义 为 [1,u] 区 间 
形式 ,1 为 拓扑 编码 中 本 结 点 编号 ,x 为 右 子 树 最 后 结 点 的 nid ,high 表示 每 
个 结 点 在 树 中 的 层次 。 图 4-3 是 树 工 中 结 点 编码 的 实例 ,如 根 结 点 nO 的 
nid 值 为 0, 右 子 树 最 后 结 点 的 nid 值 为 6, 所 以 scope 为 ;二 [0,6j, 根 结 点 的 
high 0. H = 75H fifi 9 (n0 [0.6 ].0). 

定义 4-4 HX AT |I (Embodied Subtree), f S— (Gr, .V..B,.L,) fll T= 
GV, S, LL) ,如 果 同 时 满足 以 下 条 件 : D LS Los 了 对 于 任意 边 6 二 Gr. y) 
EBs E T PHHH ry 的 祖先 , 即 工 中 存在 从 z 到 y 的 路 径 , 称 为 分 
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LPK SHT WRATH. SST dm. E 4-4 中 ,S1、S2 均 为 树 T Dd 
和 信子 树 。 这 里 需要 强调 的 是 在 树 工 中 > 不 一 定 是 y 的 父 结 点 ,只 要 是 祖先 
结 点 即 可 ,这 是 与 传统 子 树 定义 的 区 别 , 正 是 这 一 点 ,保证 了 在 大 型 文档 树 
中 挖掘 频繁 子 树 的 完备 性 。 


SI S2 
dis 、 
C Q 
57(S)=4 61(S)=1 
match labels= match labels={145} 
{016,036.034,134} code:12-14-1 
code:11-12-1 


图 4-4 ATHE E VC Bé 48 


定义 4-5 子 树 的 支持 度 (Support of Subtree), BEAT BE S ER T 中 
出 现 的 次 数 , 称 为 树 T 对 子 树 S 的 支持 度 , 以 9r(S) 表 示 , 如 6r(S1) 一 4， 
6r(S2) 王 1。 数 据 库 D 对 子 树 S 的 支持 度 定义 为 : 
1 当 6r(S) 0 
x(D,S) = MMTG/|D|. P: dT(s) = 
fep 0 Mr GS)-—0 
(4-1) 
1D| 表 示 数 据 库 中 有 序 树 的 总 数 。 
定义 4-6 HPH (Frequent Subtree) 。 如 果 数 据 库 D ITERA TH S 
的 支持 度 x(D,S) 大 于 或 等 于 用 户 给 定 的 最 小 阅 值 minsup, 则 称 子 树 S 为 
频繁 子 树 。 
定义 4-7 匹配 标签 (Match Labels) 。 频 繁 子 树 S 中 所 有 结 点 对 应 树 工 
相应 结 点 的 标签 序列 称 为 S 的 匹配 标签 。 更 一 般 的 定义 : 设 DD 为 文档 集合 
对 应 的 森林 , (n,ns，…,n,} 是 本 中 的 结 点 ,TED,(s51,s2，,… ,sm} 是 的 频 
ETRS 的 结 点 集合 , 则 S 的 匹配 标签 为 (na «na mns ,其 中 : 
(OD L(Si)=L(na) k=1,2, m 5 
(2) 对 于 S 中 每 个 边 (S; SO ,对 应 树 中 的 分 支 (5 ,na)。 
如 图 4-4 中 S1 和 S2 的 match labels; 
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4.2.2 XML 文档 的 结构 向 量 表 示 


向 量 空间 模型 以 特征 词 构造 一 个 高 维 空 间 , 每 个 词语 为 该 空间 的 一 个 
维 ,文档 被 看 作 这 个 空间 的 一 个 向 量 ,d. m (dandus tns dwn)7 ,其 中 ,n 是 
文档 集合 中 不 同 词语 的 个 数 。TFIDF (Term Frequency Inverse Document 
Frequency) 是 向 量 空间 模型 中 一 种 常用 的 文档 向 量化 方法 , 它 综合 考虑 了 词 
语 在 单个 文档 中 出 现 的 频 度 和 该 词语 在 文档 集合 中 出 现 的 频 度 , d, = 
TF(wi,d;) * IDF(w;)。 其 中 ,TF(w;,d,) 是 词 rw 在 文档 a, 中 出 现 的 次 
数 ; IDF(wi) 二 log(|1DI/DF(w)),|1D| 是 文档 集合 中 文档 总 数 ,DF(w;) 是 
包含 词语 w: 的 文档 个 数 ; IDF Go Ji ib if zw 的 全 局 特性 ,用 来 体现 词语 
w, 区 分 文档 的 能 力 。 

向 量 空间 模型 能 够 有 效 描 述 文档 内 容 , 但 不 能 体现 文档 的 结构 信息 ， 
而 XML 文档 中 含有 丰富 的 结构 信息 ,这 些 信息 就 蕴藏 在 文档 树 的 频繁 子 
集中 。 基 于 此 ,我 们 对 传统 向 量 空间 模型 进行 了 演变 ,以 文档 集 的 所 有 频 
繁 子 树 构造 一 个 结构 特征 空间 ,每 个 频繁 子 树 为 该 空间 的 一 个 维 ,文档 
Hd, 被 看 作 这 个 结构 空间 的 一 个 向 量 ,d,= (da ,do ，…… da)” HEP s; 
是 文档 集合 中 不 同 的 频繁 子 树 ,ds 表示 频繁 结构 s: 在 文档 树 d, 中 的 权重 ， 
d, — TF; d,) * IDF(s:) ,其 中 TFs: sdi) —0, G0 * B(s;)，B(s;) 为 频繁 子 
B s; 的 边 数 ; IDF(s;) 是 结构 s; 的 全 局 特性 ,数值 越 小 ,说 明 该 结构 在 文档 
树 集 合 中 的 区 分 能 力 越 强 , 定 义 为 log(1D1/DF(s;)),DF(s;) 是 含有 子 树 s; 
结构 的 树 的 个 数 ,为 了 使 每 个 频繁 结构 有 作用 ,修订 为 log(|1D|/DF(s;) 十 
0. 5)。 这 样 得 到 每 个 频繁 子 树 的 权重 函数 为 : 

ds = à,(s) * BG) * log(| D | /DF(s;)++0.5) (4-2) 

这 样 ,每 个 XML 文档 结构 表示 为 一 个 向 量 di, 整 个 数据 库 集合 表示 为 
结构 一 文档 关系 矩阵 (Structure-Document Matrix)Aw 。 其 中 ,m 为 频繁 结 
构 个 数 ,n 为 文档 个 数 ,矩阵 中 元 素 A(i,j) 表 示 第 j 个 频繁 结构 在 第 i 个 文 
档 中 的 权重 ,如 表 4-1 所 示 。 
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表 4-1 XML 结构 特征 一 文档 关系 矩阵 


权重 Sı S% i a Sm 
文档 1(71) Au A V 2858s As 
X Pi 202) Asi Au d mins re 
文档 nGn) Aa Aa | 0m Ass 


4.2.3 文档 相似 性 度量 


与 VSM 模型 类 似 , 在 FSVM 模型 中 ,同样 采用 频繁 结构 向 量 夹 角 的 余 
弦 来 度量 文档 结构 的 相似 性 : 
SmI Tss Ly) — cos( T, T,) 


一 S cisci) “dy [Darw * Yay (4-3) 

其 中 ,Tz,Ty 表示 两 个 文档 树 ,dzCsi) 和 dy(siD 分 别 表示 频繁 结构 si TE 
文档 树 Tx Ty 中 的 权重 。 从 式 (4-3) 可 以 看 出 ,计算 未 知 文档 与 已 知 文档 集 
合 中 某 个 文档 的 相似 度 问 题 归结 为 以 下 步 又 : 

第 一 步 : 在 文档 集合 中 挖掘 所 有 频繁 子 树 ,根据 定义 4-6 和 公式 (4-1) 判 
断 频 繁 子 树 ; 

第 二 步 : 对 拓扑 编码 表示 的 频繁 子 树 排序 ,应 用 定义 4-5 和 公式 (4-2) 计 
算 权 重 , 构 造 结构 特征 空间 ,生成 结构 一 文档 关系 矩阵 ; 

第 三 步 : 计算 未 知 文档 在 结构 特征 空间 的 向 量 表示 ; 

第 四 步 : 应 用 公式 (4-3) 计 算 文档 结构 相似 性 。 

两 个 文档 结构 向 量 的 内 积 越 大 , 即 Sim(Tz,Ty) 值 越 大 ,说 明 相似 度 越 
大 ,如 果 按 结构 分 类 分 在 同一 类 的 可 能 性 越 大 ,反之 可 能 性 越 小 。 这 里 的 关 
键 是 第 一 步 挖掘 频繁 子 树 问题 。 


4.2.4 计算 实例 


假定 图 4-1 数据 库 D 为 已 知 文档 集合 , | 忆 |=3, 文 档 树 分 别 为 :0、t1 和 
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12 ,利用 改进 的 TreeMiner 算法 挖掘 出 8 个 频繁 子 树 S1-S8。 图 4-3 为 未 知 
文档 树 ,标记 为 1, 根据 定义 4-5, 计 算 频 繁 子 树 的 支持 度 6,(5;) 即 频 度 , 同 时 
计算 出 频繁 子 树 中 含有 的 边 数 及 局 部 特征 参数 DE Gs) ,结果 如 表 4-2 所 示 。 


表 4-2 频繁 子 树 在 每 个 文档 中 的 频 度 及 相关 参数 


频 度 S1 S2 S3 S4 S5 S6 S7 S8 
t0 1 1 1 1 1 1 1 1 
tl 0 1 0 0 1 1 0 0 
t2 3 3 3 2 3 2 3 1 
D 0 1 2 0 3 2 2 0 
BGi) 3 2 2 2 1 1 1 1 
DF(si) 2 3 2 2 3 3 2 2 


根据 权重 函数 公式 (4-2) 计 算出 每 个 频繁 结构 的 权重 ,结果 如 表 4-3 所 示 。 
表 4-3 MATHE FSVM 中 的 向 量 表示 


权重 S1 S2 S3 S4 S5 S6 S7 S8 
t0 0.9031 | 0. 3522 | 0.6021 | 0.6021 | 0.1761 | 0.1761 | 0.1761 | 0.1761 
tl 0.0000 | 0. 3522 | 0. 0000 | 0. 0000 | 0. 1761 | 0. 1761 | 0.0000 | 0. 0000 
t2 2.7093 | 1.0565 | 1. 8062 | 1. 2041 | 0.5283 | 0. 3522 | 0.5283 | 0.1761 
t 0.0000 | 0. 3522 | 1. 2041 | 0. 0000 | 0.5283 | 0.3522 | 0. 3522 | 0. 0000 


根据 XML 文档 结构 相似 度 函数 公式 (4-3) 计 算 任 意 两 个 文档 之 间 的 相 
似 度 为 : 

simQ0.11) —0. 322521, sim(t0,12)=0.985432, sim(tl,t2)=0.328011 

sim(t,t0)=0.549918, sim(t,t1)=0.446359, sim(t,t2)=0.574932 

根据 数据 结果 表明 ,未 知 文 档 1 与 文档 12 的 结构 最 相似 ,同时 文档 10 与 
文档 t2 的 结构 最 相似 ,这 在 文档 树 图 示 中 表现 十 分 明显 。 可 见 基于 频繁 结 
构 向 量 模型 的 XML 文档 相似 度量 方法 有 很 高 的 计算 精度 。 


4.3 基于 结构 和 内 容 联合 提取 的 XML 文档 相似 度量 


XML 文档 富 含 结构 信息 ,但 同时 也 具有 文本 内 容 , 所 以 除了 考虑 其 结 
构 信 息 外 ,还 需 分 析 其 基于 关键 词 特征 提取 的 语义 内 容 信息 ,特别 是 如 何 将 
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二 者 有 机 联合 进行 特征 提取 和 表示 ,是 本 节 解 决 的 根本 问题 。 
4.3.1 XML 文档 模型 及 特征 分 析 


XML 文档 是 文本 文件 , 均 为 Unicode 编码 ,基本 内 容 包括 XML 声明 
(Declaration) , 注释 ( Comment) , 标记 (Tag)、 元 素 (Element)、 属 性 
(Attribute) 和 内 容 (Text) 几 个 部 分 组 成 ,前 两 部 分 主要 表明 文件 的 版 本 信 
息 和 用 途 等 内 容 , 数 据 部 分 体现 在 后 四 部 分 ,是 我 们 主要 研究 对 象 。 一 个 有 
效 的 XML 文档 被 视 为 一 棵 带 标 签 的 结 点 树 , 称 为 文档 模型 ,为 了 简化 问题 ， 
不 区 分 元 素 和 属性 结 点 。 图 4-5 所 示 为 杂志 和 会 议论 文集 中 学 术 论 文 的 
XML 文档 结构 模型 。 


gown. | ood 第 - 层 0 0 Conference 
第 二 
Name Vol X Articles __ -第 = 层 Name Time Articles 
第 三 层 
Title Author Abstract KeyWords FullText Title Author Resume FuliText 


图 4-5 杂志 和 会 议论 文集 XML 文档 结构 模型 


一 个 XML 文档 对 应 一 棵 有 向 树 T— —V. EZ En V 由 文档 中 所 有 标 
签 元 素 结 点 或 者 标签 的 属性 构成 ,对 于 集合 正定 义 为: 若 元 素 a€EV, 且 元 素 
的 子 元 素 或 属性 bEV, 则 边 (a,b) EE. 

从 图 中 可 以 看 出 ,XML 文档 中 元 素 和 子 元 素 构成 了 文件 的 分 层 结 构 ， 
位 于 不 同 层次 的 结 点 标记 具有 不 同 的 重要 性 , 据 此 分 类 时 应 有 不 同 的 权重 
分 配 ,文档 中 的 数据 关键 词 信 息 基本 出 现在 文档 树 中 叶 结 点 上 ,因此 根据 内 
容 分 类 时 可 以 只 考虑 叶 结 点 ,标签 分 支 结 点 更 多 是 结构 信息 。 这 样 文档 树 
中 结 点 标签 和 叶 结 点 关键 词 就 构成 了 文档 的 内 容 信息 特征 。 


4.3.2 频繁 结构 层次 向 量 模型 


XRules 分 类 只 考虑 XML 文档 结构 信息 ,通过 挖掘 满足 一 定 支持 度 的 
结构 规则 进行 分 类 ,适用 于 XML 结构 信息 利用 ,如 生物 信息 学 等 领域 。 很 


第 4 章 基于 频繁 模式 挖掘 的 XML 网 页 分 类 技术 109 


显然 ,除了 结构 影响 XML 的 分 类 外 ,文档 内 容 中 的 关键 词 对 分 类 也 起 着 重 
要 的 作用 ,如 两 篇 文献 资料 按照 学 术 研 究 领域 分 类 既 要 考虑 其 文档 结构 , 同 
时 更 要 处 理 其 中 描述 的 内 容 ,为 此 ,在 提出 的 频繁 结构 向 量 模型 中 融合 语义 
内 容 信息 , 即 除 了 考虑 文档 结构 信息 外 ,同时 考虑 结构 中 关键 词 内 容 信息 ， 
提出 了 频繁 结构 层次 向 量 模型 作为 XML 网 页 分 类 的 数据 模型 39 。 

该 模型 将 一 个 文档 从 结构 上 划分 为 N 层 , 对 频繁 结构 中 基于 每 层 的 文 
本 段 内 容 ( 叶 结 点 ) 建 立 相应 的 文本 特征 向 量 以 及 文本 层次 权 值 向 量 。 这 样 
将 每 个 频繁 结构 看 作 一 个 行 向 量 ,类 似 于 N 层 VSM 中 的 文本 段 ,每 个 XML 
文档 则 被 量化 为 一 组 向 量 , 以 一 个 矩阵 来 表示 , 称 为 特征 值 矩 阵 , 如 表 4-4 所 
示 , 从 而 达到 将 半 结 构 化 文本 的 结构 分 析 与 文本 内 容 分 析 相 结合 的 目的 ,其 
中 wG DRRB j 个 关键 词 在 第 i 个 频繁 结构 中 的 权重 。 


表 4-4 频繁 结构 层次 向 量 的 文档 特征 矩阵 


文本 层次 特征 
< Key Key. BRE Key, 
频繁 结构 特征 i 
S w(1,1) w (1,2) ws) 
S; w (2,1) w (2,2) w (2, n) 
Sim w Gn. w (m,2) w (m, n) 


4.3.3 XML 文档 结构 和 内 容 联合 相关 度 计算 


频繁 结构 层次 向 量 模型 将 XML 文档 看 成 是 由 文档 结构 和 若干 关键 词 
的 特征 构成 ,每 个 文档 被 表示 成 一 个 mX na 的 矩阵 ,如 表 4-4 所 示 , 其 中 以 为 
文档 集合 中 不 同 的 频繁 结构 (按照 支持 度 降序 排列 ) «n 为 文档 集合 中 不 同 词 
语 的 个 数 。 

XML 文档 频繁 结构 的 挖掘 采用 TreeMiner* 算法 ,结构 单元 中 的 结 点 
记载 了 源 文档 中 的 层次 属性 ,这 与 文本 内 容 的 权重 相关 。 图 4-6 中 的 频繁 结 
构 ( 假 定 Minsup = 50%) 中 , 结 点 集合 {Journal，Name，Vol，Articles， 
Title. Author. Abstract. KeyWord. FullText. Confrence. Resume) 均 为 
频繁 结 点 , 即 为 1-Subtrees,2-Subtrees 共有 18 棵 ,图 4-6 所 示 为 部 分 子 树 。 
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每 个 频繁 结构 的 权重 函数 定义 采用 公式 (4-2) 。 


| Articles Articles — Articles i 
1 1 
| 1 
Title Author FullText ! 
1 


支持 度 为 100% 1 


和 zl 
JJoùrnal Journal Journal Journal Journal Journal Journal Journal | 
C0 4 do do d d d 1| 
ij 1 
| Name Vol Articles — Title Author ^ Abstract KeyWord FullText ! 
1 支持 度 为 50% f 
E E = 


图 4-6 部 分 频繁 子 树 2-Subtrees 
对 每 个 文档 模型 树 的 叶 结 点 按 先 序 编号 ,如 图 4-7 所 示 的 文档 树 ,分 别 
统计 计算 各 个 叶 结 点 关键 词 的 频率 TFi,s 二 t 及 (d), 其 中 jj 为 叶 结 点 序号 。 
叶 结 点 文本 关键 词 在 文档 中 的 位 置 权 值 ws 三 父 结 点 层 权 值 /兄弟 结 点 个 
数 ( 根 结 点 层 数 为 1, 其 中 > wia -1). 如 Name 的 位 置 权 值 为 1/3. 
Author 的 位 置 权 值 为 1/9。 这 样 XML 文档 d 中 第 k 关键 词 的 频率 表示 为 : 
TFi,— > Cwhia * TFLO (4-4) 
式 中 w 结合 Salton 提出 的 普通 本 文 和 HTML 的 权 值 计算 方法 9] ,修正 为 : 
n TFi,,logON/n;) (4-5) 

JÈ CTFi alog(N/n;))? 

其 中 N 为 所 有 文档 的 数目 ,n; 是 出 现 该 关键 词 的 文本 数 。 


Conference 
Name o™ Articles 
© Titl 
© itle Author FullText 


图 4-7 XML 文档 树 的 叶 节 点 编号 
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4.4 基于 粗糙 集 理论 的 网 页 分 类 技术 


在 进行 特征 权重 计算 和 特征 过 滤 后 ,从 而 得 到 训练 集 XML 文档 的 结构 
和 内 容 特 征 值 矩 阵 表 示 59 ,如 表 4-5 所 示 ,其 中 S— (81.82. Sm) ,为 文档 
数据 库 的 所 有 频繁 结构 ,Ds 表示 每 个 频繁 结构 的 权重 ,由 公式 (4-2) 得 到 。 
{KW1l,KW2,…,KWn)}) 为 内 容 特 征 关键 词 ,TFi(Sj) 表 示 关 键 词 i 在 结构 
Sj 中 出 现 的 频率 ,由 公式 (4-4) 和 公式 (4-5) 得 到 。 


表 4-5 XML 文档 的 频繁 结构 层次 向 量 空间 特征 值 


权重 Ds KW1 KW2 | = KWn 
Sl dsl TF1(s1) TF2(s1) |  -- TFn(s1) 
S2 ds2 TF1(s2) TF2(s2) | sem TFn(s2) 
Sm dsm TFlGm) TF2(sm) |- == TFn(sm) 


ROSETTA[31 系 统 ( 罗 塞 塔 ) 是 挪威 科技 大 学 计算 机 与 信息 科学 学 院 开 
发 的 在 粗糙 集 理论 的 框架 中 进行 数据 分 析 的 一 个 全 面 的 软件 系统 ,拥有 一 
套 灵活 和 强大 的 算法 ,并 把 这 些 算法 放 在 一 个 用 户 友好 的 设计 环境 下 旨 在 
支持 所 有 基于 可 分 辩 建 模 理 论 的 情形 ,能 够 很 好 地 进行 属性 约 简 、 规 则 抽 
取 、 分 类 和 绩效 评价 。 我 们 即 采用 ROSSETA 系统 对 测试 数据 集 进 行 分 类 ， 
图 4-8 为 系统 的 详细 处 理 流程 。 


A Ms . 
^ ^ ^ ^ t Costs 
A A D (U2.41 U (d]) 5 (Us45U (d]) " 
fr n~ 1 TL ii 
(UAU (d)) (UAU (d]) 
lods RED(As.x.d) | 人 ED 
C j1ud-297. | S ? Cuts; Cuts» t 
(UAU {d}) [us |=148 
Ps RUL(As d) 
1 (Us.AU (d]) Y 
PER Rd D; -| D, -| n 
(Us.A1U {d}) (Us.A5U (d]) 
X J A 3 AUC, 
As 4; ! 


图 4-8 ROSSETA 系统 机 器 学 习 结构 
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被 输入 的 决策 系统 A 的 内 容 即 为 测试 文档 集合 的 特征 值 ( 表 4-5 中 的 
数据 )。A 第 一 次 清除 缺失 值 产生 As ,然后 在 分 裂 成 两 个 不 相交 的 子 系统 ， 
A; MI Ass A 离散 成 一 个 两 阶段 程序 ,而 A 用 由 As 计算 产生 的 截 集 来 进 
行 离散 。 然 后 由 经 处 理 过 A 计算 出 约 简 和 规则 ,并 且 把 生成 的 规则 用 于 对 
经 处 理 过 的 A 中 的 对 象 进行 分 类 ,最 后 从 这 个 分 类 中 获得 绩效 估计 。 


4.4.1 基于 结构 的 分 类 


不 考虑 文档 内 容 , 只 保留 表 4-5 中 频繁 结构 的 特征 值 权重 Ds 列 , 整 个 
XML 文档 集合 的 频繁 结构 构成 特征 空间 ,如 表 4-6 所 示 , 生 成 矩阵 A 的 
内 容 。 


表 4-6 XML 文档 结构 特征 关系 矩阵 


权重 Si S2 0000 |o 0 Gs 
文档 1al) An A oO [|o 0t Am 
文档 202) An As | Am. 
文档 nln) Aa Au | Aon 


4.4.2 基于 内 容 的 分 类 
不 考虑 文档 结构 ,只 保留 表 4-5 中 关键 词 的 权重 ,整个 XML 文档 集合 
的 特征 词 构成 特征 空间 ,由 公式 (4-5) 生 成 矩阵 A 的 内 容 , 如 表 4-7 所 示 。 
表 4-7 XML 内 容 特征 一 文档 关系 矩阵 


权重 KW1 KW2 | e KWm 
文档 1D An As - |o o m9 Aw. 
文档 202) Aa Au. — | = Ao. 
文档 ntn) An Ag | tM Anm 


4.4.3 基于 结构 和 内 容 联合 的 分 类 


XML 文档 分 类 有 时 受 结构 影响 较 大 ,如 从 发 表 论 文 是 杂志 论文 还 是 会 
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议论 文 角度 出 发 ,图 4-5 中 的 文档 2 和 图 4-7 中 的 文档 属于 一 类 ,但 有 时 从 
文章 论述 内 容 出 发 ,关键 词 特征 起 重要 作用 ,所 以 一 个 文档 有 时 同属 于 多 
类 。 对 结构 和 内 容 分 别 分 配 不 同 的 权重 可 以 联合 提取 其 特征 值 ,以 达到 不 
同 分 类 目的 。 

每 个 频繁 结构 中 的 关键 词 特征 事件 是 独立 事件 ,每 个 频繁 结构 与 在 这 
个 结构 中 出 现 的 关键 词 之 间 是 先 验 事件 , 表 4-5 中 文档 的 每 个 关键 词 KWi 
在 整个 文档 的 权重 TFi 除了 与 其 所 在 文档 层次 有 关外 ,还 与 其 所 在 频繁 
结构 的 权重 有 关 , 所 以 将 其 修订 为 公式 (4-6) ,解释 为 : 文档 a 中 第 i 个 关 
键 词 的 权重 为 此 关键 词 在 每 个 频繁 结构 的 频次 与 频繁 结构 权重 的 乘积 
累加 。 

w; 一 MrECSO Xd, k-—l2.-m. i-—l2-,n (4-6) 

3X FE ,每 个 文档 的 频繁 结构 层次 向 量 空间 由 矩阵 规范 化 为 一 个 向 量 , 整 
个 XML 文档 集合 的 结构 和 内 容 特征 规划 为 怀 个 关键 词 的 权重 值 矩 阵 , 即 为 
A 的 内 容 。 也 就 是 说 ,每 个 文档 表示 为 形 如 表 4-8 中 的 矩阵 ,经 公式 (4-6) 规 
范 化 为 表 4-8 中 的 一 个 行 向 量 , 最 终 整 个 文档 集合 构成 XML 联合 特征 一 文 
档 关 系 矩 阵 , 利 用 向 量 内 积 计 算 文档 相似 度 。 


表 4-8 XML 联合 特征 一 文档 关系 矩阵 


权重 DO TF, (Sk) * da |D) TF: (Sk) *da| em BITE, (Sk) * da 
文档 1(41) An As. [| a rm 
文档 202) An Au | es AS 
文档 nn) Aa ås h sev» Aa 


4.4.4. 实验 结果 及 分 析 


实验 使 用 AMD 双核 Athlon 4000+ 2. 10GHz CPU.1G 内 存 的 个 人 计 
算 机 ,所 用 操作 系统 为 Windows 2000 Server, 所 有 算法 均 使 用 Java 语言 实 
现 , 所 用 JDK 为 Java 2 Platform Standard Edition 5. 0 标准 版 。 
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1. 实验 数据 和 实验 结果 


实验 数据 分 为 两 类 : 一 类 采用 ACMSIGMODC"? 数据 集中 的 
OrdinaryIssuePage 和 IndexTermsPage XML 文件 ,用 于 基于 文档 结构 的 分 
类 测试 。 数 据 子 集 使 用 情况 见 表 4-9, 文 档 数 量 中 的 第 一 个 数字 作为 频繁 子 
树 结构 挖掘 训练 使 用 ,后 一 个 数字 作为 分 类 测试 使 用 。ACMSIGMOD 文档 
中 带 有 分 类 信息 ,每 个 文档 通常 属于 多 个 分 类 ,如 果 一 个 文档 特征 符合 多 个 
文档 的 分 类 规则 ,认为 这 个 文档 同属 多 类 ,实验 中 采用 分 类 信息 来 替代 人 工 
标注 。 实 验 结果 的 准确 率 (precision) 采 用 公式 (4-7) 进 行 评价 。 


P = (分 类 正确 的 文档 数 )/( 测 试 文档 总 数 ) (4-7) 
表 4-9 实验 中 使 用 的 数据 子 集 
数据 集 Datasets 源 数据 Sources 文档 总 数 
ACMSIGMOD-1 OrdinaryIssuePage( 1999) 404-20 
ACMSIGMOD-2 OrdinaryIssuePage 2002) 204-10 
ACMSIGMOD-3 IndexTermsPage( 1999) 404-20 


频繁 结构 的 挖掘 采用 TreeMiner 算法 ,文档 集合 的 标签 及 编码 采用 人 
工 标注 ,不 同 数据 集合 的 分 类 测试 结果 如 图 4-9 所 示 。 


—*À— ichs rcl op-i 


—HB— acis rcl op- 
ACRIS Ic oD-5 
— acs Ic oD17 5 


Precision(M) 


1 0.9 0.8 0.7 0.6 0.5 


Enimm Surt 
图 4-9 文档 结构 特征 分 类 测试 


另 一 类 数据 使 用 新 浪 网 RSS 频道 聚合 网 站 (http://rss. sins. com. en) 
提供 的 基于 XML 格式 的 简易 RSS 新 闻 , 每 类 新 闻 网 页 的 主 文档 结构 树 如 
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图 4-10(a) 所 示 , 每 项 新 闻 结构 如 图 4-10(b) 所 示 ,为 了 说 明 结构 和 内 容 对 分 
类 的 影响 ,我 们 有 意 对 部 分 XML 网 页 文件 进行 了 一 些 结构 修改 ,比如 增删 
一 些 不 太 重 要 的 元 素 (iamge link, copyright. guid 等 ) ,主要 对 其 中 item 项 
进行 结构 和 内 容 的 联合 特征 提取 测试 。 为 了 简化 实验 过 程 ,内 容 特征 的 提 
取 采 用 人 工 方法 完成 。 


TSS 


| Item 
Channel o 
NE Tile pink Category 
image Title item description 
description 
(a) (b) 


图 4-10 新 闻 网 页 的 主要 结构 元 素 


共 提 取 这 样 的 XML 网 页 200 篇 ,其 中 150 篇 作为 训练 集 ,分 为 财经 、 军 
事 ,汽车 科技、 体育 5 类 ,通过 两 种 情况 进行 实验 比较 : 四 对 于 每 个 XML X 
档 , 仅 考虑 关键 词 特征 频 度 ; 四 对 于 每 个 XML 文档 关键 词 ,考虑 文档 的 频 
繁 结构 和 关键 词 的 位 置 权 值 和 频 度 。 获 得 特征 值 A 后 仍然 使 用 ROSSETA 
系统 进行 训练 和 测试 , 查 准 率 采用 公式 (4-7) 表 示 , 查 全 率 (recall) 采 用 公 
式 (4-8) 表 示 。 实 验 数据 及 结果 如 表 4-10 所 示 , 图 示 如 图 4-11 和 图 4-12 所 示 。 


R 二 (分 类 正确 的 文档 数 )/( 该 类 应 有 的 文档 数 ) (4-8) 
表 4-10 基于 XML 文档 结构 和 关键 词 特征 分 类 实验 结果 
Economic| Military |Automobile| Technical |Sports 
Dataset 
News News News News |News 
TrainingSamplesC150) 30 30 30 30 30 
TestingSamples(50) 10 10 10 10 10 
Frequency structures(48) 12 8 9 11 8 
Keywords(232) 62 44 25 65 36 
Only Keywords 75.6 76.8 85.2 12.3 85 
RecallC 4) TER 
Considering Structure 91.5 93. 1 95.8 92.3 96.2 
E Only Keywords 83.2 86.5 87.4 84.6 87.6 
Precision( % ) -一 一 
Considering Structure 95.6 97.2 97.6 96.3 98.1 
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查 全 率 (%) 


旦 结构 和 内 容 联合 


财经 “军事 汽车 科技 体育 
XML 网 页 分 类 


图 4-11 各 类 网 页 分 类 检索 的 查 全 率 


uii] 
CEAS 


查 准 率 (%) 


财经 ”军事 ”汽车 科技 体育 
XML 网 页 分 类 


图 4-12 各 类 网 页 分 类 检索 的 查 准 率 
2. 实验 分 析 


第 一 组 数据 集 主 要 针对 XML 文档 结构 分 类 ,从 图 4-9 可 以 看 出 ,采取 
频繁 结构 向 量 模型 作为 XML 文档 结构 分 类 有 很 高 的 准确 率 ,特别 对 文献 类 
文档 ,结构 分 类 准确 率 可 以 达到 98% 以 上 。 

第 二 组 数据 主要 针对 文档 内 容 和 结构 联合 特征 分 类 ,从 实验 结果 表 4-10 
和 图 4-11 及 图 4-12 中 可 以 看 出 ,在 XML 网 页 分 类 中 ,只 考虑 文档 内 容 , 即 
关键 词 信息 , 查 全 率 在 7026 —85 26 , 查 准 率 在 85% 左 右 ; 同时 考虑 文档 内 容 
和 结构 ,联合 提取 结构 和 关键 词 特征 值 ,分 类 和 相似 查询 具有 更 高 的 查 全 率 
和 查 准 率 ,可 以 达到 90% 以 上 ,特别 体育 新 闻 类 网 页 查 准 率 可 以 达到 9826. 

实验 数据 表明 ,频繁 结构 层次 向 量 模型 对 于 XML 网 页 的 分 类 及 实现 相 
似 查询 具有 很 好 的 性 能 。 
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信息 检索 (Information Retrieval/Access) 是 从 任何 信息 集合 中 识别 和 
获取 所 需 信息 的 过 程 及 其 所 采取 的 一 系列 方法 和 策略 。 从 原理 上 看 ,包括 
存储 与 检索 两 方面 。 知 识 是 有 组 织 的 大 量 的 信息 ,获得 知识 有 赖 于 获得 信 
息 。 本 章 将 介绍 非 结构 化 数据 的 全 文 检索 技术 。 


5.1 全 文 检索 的 关键 技术 


随 着 互联 网 和 电子 商务 的 发 展 ,电子 信息 已 经 进入 大 数据 时 代 , 这 些 信 
息 大 致 可 分 为 两 类 : 结构 化 数据 和 非 结构 化 数据 ,结构 化 数据 指 的 是 诸如 企 
业 财 务 账 目 和 生产 数据 .学 生 的 分 数 数据 等 等 , 非 结 构 化 数据 的 则 是 一 些 文 
本 数据 .图像 声音 等 多 媒体 数据 等 等 。 据 统计 , 非 结 构 化 数据 占有 整个 信息 
量 的 80% 以 上 。 对 于 结构 化 数据 ,用 RDBMS( 关 系数 据 库 管理 系统 ) 技 术 来 
管理 是 目前 最 好 的 一 种 方式 。 但 是 由 于 RDBMS 自身 底层 结构 的 缘故 使 得 它 
管理 大 量 非 结 构 化 数据 显得 有 些 先天 不 足 , 特 别 是 查询 这 些 海 量 非 结构 化 数 
据 的 速度 较 慢 。 而 通过 全 文 检索 技术 就 能 高 效 地 管理 这 些 非 结构 化 数据 。 

经 过 多 年 的 发 展 ,全 文 检索 从 最 初 的 字符 串 匹 配 程序 已 经 演进 到 能 对 
超大 文本 语音、 图 像 .活动 影像 等 非 结 构 化 数据 进行 综合 管理 的 大 型 软件 。 
由 于 内 涵 和 外 延 的 深刻 变化 ,全 文 检索 系统 已 成 为 新 一 代 管理 信息 系统 的 
代名词 ,衡量 全 文 检索 系统 的 基本 指标 也 逐渐 形成 规范 。 

全 文 检索 是 一 种 将 文件 中 所 有 文本 与 检索 项 匹配 的 文字 资料 检索 方 
法 。 全 文 检索 系统 是 按照 全 文 检索 理论 建立 起 来 的 用 于 提供 全 文 检 索 服 务 
的 软件 系统 ,系统 的 核心 则 具有 建立 索引 、 处 理 查 询 返 回 结果 集 、 增 加 索引 、 
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优化 索引 结构 等 功能 。 衡 量 全 文 检索 系统 性 能 的 基本 指标 有 查 全 率 、 查 准 
率 , 响 应 时 间 和 输出 形式 等 。 全 文 检索 的 中 心 环节 是 文件 内 容 表达 ,信息 查 
询 的 获得 以 及 相关 信息 的 匹配 。 一 个 好 的 全 文 信息 检索 系统 不 仅 要 求 将 输 
出 信息 进行 相关 性 排列 ,还 应 该 能 够 根据 用 户 的 意图 .兴趣 和 特点 自 适应 和 
智能 化 地 调整 匹配 机 制 ,获得 用 户 满意 的 检索 输出 。 

要 实现 全 文 检索 ,首先 必须 对 Web 信息 进行 预 处 理 。 

信息 预 处 理 的 主要 功能 是 过 滤 文 件 系 统 信 息 ,为 文件 系统 的 表达 提供 
一 种 满意 的 索引 输出 。 其 基本 目的 是 为 了 获取 最 优 的 索引 记录 ,使 用 户 能 
很 容易 地 检索 到 所 需 信息 

CO 格式 过 滤 : 信息 预 处 理应 该 能 够 过 滤 不 同 格式 的 文档 ,以 及 图 片 、 
声音 、 视 频 等 信息 。 这 使 得 搜索 引擎 不 仅 能 够 检索 文字 ,而 且 能 够 检索 原始 
格式 文件 的 所 有 信息 。 

(2) 语词 切 分 : 语词 是 信息 表达 的 最 小 单位 ,而 汉语 不 同 于 西方 语言 ， 
其 句子 的 语词 间 没 有 分 隔 符 因 此 需要 进行 语词 切 分 。 常 用 的 语词 切 分 方法 
有 按 词典 进行 最 大 词组 匹配 .逆向 最 大 词组 匹配 、 最 佳 匹 配 法 ,联想 一 回 漳 
法 、 全 自动 词典 切 词 等 。 近 年 来 ,又 出 现 了 基于 神经 元 网 络 的 和 专家 系统 的 
分 词 方 法 和 基于 统计 和 频 度 分 析 的 分 词 方法 。 

G) 词法 分 析 : 汉语 语词 切 分 中 存在 切 分 歧义 ,如 句子 “网 球拍 卖 完 
了 ”, 可 以 切 分 为 “网 球 /拍卖 完了 ”, 也 可 以 切 分 为 “网 球拍 / 卖 完了 ”。 因 此 
需要 利用 各 种 上 下 文 知识 解决 语词 切 分 歧义 。 此 外 ,还 需要 对 语词 进行 词 
法 分 析 , 识 别 出 各 个 语词 的 词 干 ,以便 根据 词 干 建立 信息 索引 。 对 于 英语 语 
ig] ,建立 索引 之 前 首先 要 去 除 一 些 停顿 词 (如 常见 的 功能 词 a .the、\it 等 ) 和 词 
根 ( 如 ing.ed、\ly 等) 。 

(4) 词性 标注 和 短语 识别 : 在 切 分 的 基础 上 ,利用 基于 规则 和 统计 的 方法 
进行 词性 标注 。 在 此 基础 上 ,还 要 利用 各 种 语法 规则 ,识别 出 重要 的 短语 结 

(5) 自动 标 引 : 从 网 页 文档 中 提取 出 一 组 能 最 大 程度 上 概括 其 内 容 特 
征 、 可 作为 用 户 检索 入 口 的 关键 性 信息 ,用 该 组 信息 对 文件 进行 标 引 ,使 用 
户 可 以 通过 输入 关键 信息 检索 到 该 文 文件 的 简要 信息 ,如 标题 \ 摘 要、 时间、 
作者 和 URL 等 ,进一步 点 击 可 查询 到 该 文档 。 
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(6) 自动 分 类 : 建立 并 维护 一 套 完 整 的 分 类 目录 体系 ,根据 文件 的 信息 
特征 ,计算 出 与 其 相关 程度 最 大 的 一 个 或 多 个 分 类 ,将 文档 划 归 到 这 些 分 类 
中 去 ,使 用 户 可 以 通过 浏览 分 类 体系 直接 查询 到 该 文档 。 

目前 ,搜索 引擎 的 使 用 已 成 为 排 在 收发 电子 邮件 之 后 的 第 二 大 互联 网 
应 用 技术 。 搜 索引 擎 起 源 于 传统 的 信息 全 文 检索 理论 , 即 计算 机 程序 通过 
扫描 每 一 篇 文章 中 的 每 一 个 词 ,建立 以 词 为 单位 的 到 排 文 件 , 检 索 程 序 根据 
检索 词 在 每 一 篇 文章 中 出 现 的 频率 和 每 一 个 检索 词 在 一 篇 文章 中 出 现 的 概 
率 , 对 包含 这 些 检 索 词 的 文章 进行 排序 ,最 后 输出 排序 的 结果 。 全 文 检索 技 
术 是 搜索 引擎 的 核心 支撑 技术 。 全 文 检索 系统 架构 如 图 5-1 所 示 。 
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I 
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5-33 全 文 检索 结构 图 
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5.2 信息 检索 模型 


实现 全 文 检索 的 关键 是 解决 检索 模型 的 问题 , 即 文档 如 何 表 示 , 如何 建 
立 索引 项 和 文档 之 间 的 联系 及 检索 结果 如 何 处 理 等 问题 。 原 始 的 文档 中 包 
含 文本 .图像 .视频 .音频 等 数据 ,不 能 直接 进行 检索 ,需要 从 这 些 原 始 数据 
中 抽取 逻辑 视图 ,以 支持 信息 检索 。 用 户 用 查询 来 表示 信息 需求 ,检索 系统 
根据 查询 的 表示 ,搜索 文档 集 , 获 取 与 用 户 查 询 相 关 的 文档 。 信 息 检索 的 匹 
配 是 相似 性 匹配 ,查询 的 结果 按 序 返 回 。 以 上 过 程 实际 上 涉及 到 三 个 重要 
的 处 理 : 文档 集 的 逻辑 表示 、 查 询 的 表示 、 相 似 性 匹配 及 其 排序 。 也 就 是 说 ， 
文档 集 、 查 询 和 相似 性 匹配 决定 一 种 检索 策略 和 模式 。 对 这 些 检 索 的 因素 
和 过 程 建 模 , 就 产生 了 各 种 不 同 的 信息 检索 模型 。 信 息 检索 模型 的 定义 
如 下 : 

一 个 信息 检索 模型 是 将 文档 表示 、 查 询 以 及 它们 之 间 关 系 进行 建 模 的 
抽象 描述 方法 , 它 由 三 元 组 FLD,Q,R(qi'd)] 表 示 。 其 中 ,D 是 文档 集中 的 
一 组 文档 逻辑 视图 (或 称 为 文档 的 表示 ); Q 是 一 组 用 户 信息 需求 的 逻辑 视 
图 (表示 ) ,这 种 视图 (表示 ) 被 称 为 查询 ; R(Qi,D) 是 一 个 排序 函数 ,该 函数 
输出 一 个 与 查询 q; € Q. XC PEERS. d; € D 有 关 的 实数 ,用 来 表示 查询 和 结果 
文档 之 间 的 相似 度 。 

根据 查找 相关 信息 的 实现 方式 不 同 , 经 典 的 信息 检索 模型 有 布尔 模型 
(Boolean Model)、 向 量 空间 模型 (Vector Space Model) 和 概率 模型 
(Probabilistic ModeD 。 布 尔 模型 是 许多 商业 信息 检索 系统 的 理论 基础 。 在 
布尔 模型 中 ,文档 和 查询 都 被 表示 为 索引 项 的 集合 ,因此 该 模型 是 集合 论 模 
型 ; 在 向 量 空间 模型 中 ,把 文档 和 查询 表示 成 一 个 维 空间 中 的 向 量 ,用 距 
离 作为 相似 度 的 度量 ,该 模型 是 代数 模型 ; 在 概率 模型 中 ,把 检索 看 作 是 文 
档 和 查询 之 间 匹 配 成 功 的 概率 估计 问题 ,用 于 构建 文档 和 查询 的 机 制 是 基 
于 概率 论 的 ,该 模型 是 概率 模型 。 
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5.2.1] 集合 模型 


布尔 模型 是 最 典型 的 一 种 集合 模型 ,是 一 种 简单 的 匹配 模型 ,如 果 用 户 
提交 的 查询 词 条 在 文档 中 出 现 , 就 赋予 True 值 ,反之 为 False; 用 AND, 
OR、NOT 等 逻辑 运算 还 可 以 将 个 查询 词 条 连接 成 一 个 逻辑 表达 式 。 在 布 
尔 模型 中 ,如 果 查 询 表 达 式 为 真 ,RSV (Retrial Status Value) 值 就 为 1, 否 则 
赋予 0, 除了 0、1 这 两 个 值 以 外 ,没有 第 3 个 值 。 因 此 利用 布尔 模型 无 法 在 
匹配 集中 进行 相关 性 的 排序 。 布 尔 模型 易于 实现 ,检索 速度 快 ,几乎 所 有 的 
商业 站 点 都 支持 该 模型 。 但 是 布尔 模型 过 于 严格 ,往往 由 于 一 个 词 条 不 满 
足 条 件 而 导致 整个 查询 表达 式 无 效 , 漏 检 比 较 严 重 ,同时 也 无 法 区 分 词 条 在 
文档 中 所 占 的 权重 ,因此 布尔 模型 是 一 种 简单 但 是 不 够 理想 的 快速 检索 
模型 。 


5.2.2 代数 模型 


向 量 模 型 把 文档 看 成 一 组 独立 的 n 维 词 条 向 量 (vi evo noD EE 
个 词 条 分 量 都 赋予 一 个 权 值 rw ,文档 和 用 户 的 信息 查询 可 以 转化 为 向 量 空 
间 的 向 量 匹配 问题 3 。 假 设 文档 向 量 为 (ze eo ,rw ) ,用户 查 询 为 (qi， 
qst sdn) ,用 两 个 向 量 的 夹 角 余 汞 来 表示 文档 的 相似 度 , 很 明显 该 角度 与 文 
档 的 相似 度 成 反比 。 文 档 特征 向 量 Gw ,zs ,…,zw) 可 以 根据 词 条 的 频 度 来 
选取 。 一 般 来 说 , 词 条 的 重要 程度 和 词 条 在 文档 中 的 出 现 频率 成 正比 ,和 文 
档 集合 中 出 现 该 词 条 的 文档 数量 成 反比 。 只 要 满足 上 述 条 件 , 就 可 以 构造 
一 些 函 数 来 具体 计算 。 

P 范式 模型 可 以 看 成 一 种 扩展 的 布尔 模型 。 在 P 范式 模型 中 ,文档 同样 
可 以 表示 成 一 组 词 条 向 量 (ru ,ws，,… ,vw ), 其 中 vw; 表示 第 i 个 词 条 在 文档 
中 的 权重 , 它 的 取 值 在 [0,1] 之 间 , 当 P= 吕 时 ,该 模型 就 退化 为 布尔 模型 。 
在 实际 应 用 中 PP 的 取 值 一 般 在 2 一 5。 


5.2.3 概率 模型 


概率 、 模 型 比 布尔 模型 .向 量 模型 改进 的 是 考虑 了 词 条 文档 之 间 的 统计 
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概率 5 。 假 设 N 表示 文档 集合 中 的 文档 总 数 ,R 表示 文档 集合 中 与 用 户 查 
询 相 关 的 文档 数 ,N; 表示 包含 查询 词 条 T: 的 文档 数 ,R, 表示 相关 文档 RR 中 
包含 词 条 T, 的 文档 数 。 文 档 相 似 度 的 计算 都 和 这 些 变量 相关 , 词 条 、 文 档 
之 间 的 内 在 关联 在 该 模型 中 得 以 体现 。 

概率 模型 试图 在 一 个 概率 框架 中 处 理 信息 检索 问题 ,其 基本 思想 是 : 给 
定 一 个 用 户 的 查询 , 则 有 一 个 包含 相关 文档 且 不 包含 不 相关 文档 的 集合 。 
设想 这 个 文档 集合 是 一 个 理想 的 结果 集 , 给 出 这 个 理想 结果 集 的 描述 ,并 用 
于 检索 。 

基本 假设 : 给 定 一 个 查询 g 和 文档 集中 一 个 文档 qj ,概率 模型 试图 找 出 
用 户 对 其 感 兴趣 的 概率 ,模型 假设 这 个 概率 只 是 依赖 于 查询 和 文档 的 表示 ， 
进而 模型 假设 文档 集中 存在 一 个 子 集 , 它 使 得 总 体 相关 概率 ,在 集合 中 的 文 
档 被 认为 是 与 查询 相关 的 ,不 在 集合 中 的 则 被 认为 是 不 相关 的 。 

其 主要 优点 是 : 理论 上 ,文档 按照 其 与 目标 集合 的 相关 概率 的 降序 
排列 。 

主要 缺点 是 : 需要 最 初 将 文档 分 为 相关 和 不 相关 的 集合 ; 所 有 权重 都 
是 二 值 的 ,模型 中 仍然 假设 索引 项 之 间 是 相互 独立 的 。 


5.2.4 概念 模型 


概念 模型 是 一 种 全 新 的 检索 模型 ,该 模型 的 基本 原理 和 上 述 的 几 种 模 
型 有 本 质 的 区 别 5 。 该 模型 不 是 以 单词 或 词组 为 中 心 组 织 检索 数据 库 ,而 
是 以 概念 来 取代 它们 ,用 树 状 或 网 状 结构 来 表示 概念 的 组 织 和 分 类 。 使 用 
概念 模型 检索 ,就 不 再 局 限于 词 条 本 身 , 当 用 户 输入 一 个 查询 条 件 时 ,不 仅 
要 找 出 与 查询 表达 式 匹 配 的 结果 ,而 且 搜 索引 擎 根据 该 词语 概念 与 其 他 词 
语 概念 的 内 在 关联 ,也 要 找 出 包含 与 查询 表达 式 概念 相同 或 相近 的 词语 的 
文档 。 例 如 ,用 户 查 找 color change. 18 2 5| SE nT VA TE tH. become black 等 具 
有 相近 含义 的 词语 。 概 念 模型 不 是 简单 的 短语 匹配 ,这 种 短语 匹配 往往 得 
到 成 千 上 万 毫 无 意义 的 结果 ,但 是 它 能 够 根据 用 户 查 询 词 条 的 内 在 含义 进 
行 相近 语义 短语 的 查找 ,这 个 特点 是 其 他 的 模型 所 没有 的 。 
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5.3 N 层 向 量 空间 模型 


向 量 空 间 模 型 是 目前 信息 检索 最 常用 的 数学 模型 中 。 在 Web 信息 检索 
方面 ,向 量 空 间 模型 比 布尔 模型 等 传统 模型 更 为 适合 。 

基于 向 量 空间 模型 的 信息 检索 一 般 过 程 如 下 : 

CD 将 各 个 文档 和 查询 都 表示 为 向 量 ; 

(2) 计算 查询 与 各 个 文档 之 间 的 相似 度 ; 

(3) 按照 查询 与 各 个 文档 之 间 的 相似 度 对 相关 的 文档 进行 排序 ; 

COD 将 排序 后 的 文档 以 线性 列表 的 形式 返回 给 用 户 。 


5.3.1 向 量 空间 


在 向 量 空间 模型 中 ,各 个 文档 (document) 和 查询 (query) 的 内 容 都 表示 
为 向 量 。 设 共有 个 文档 ,对 所 有 文档 进行 词语 切 分 .过滤 和 转换 之 后 , 合 
适 的 mn 个 词语 (term) 被 提取 出 来 ,构造 m X n 的 词语 一 一 文档 关系 和 矩阵 
(term-document matrix) A ,矩阵 中 的 元 素 AG jo B i(1 达 i 二) 个 词语 
T, 在 第 j Co jn P XC D; 中 的 权重 (weight) ,这 样 ,每 个 词语 就 可 以 用 
A 中 对 应 的 行 向 量 来 表示 ,每 个 文档 就 可 以 用 A 中 对 应 的 列 向 量 来 表示 。 
所 有 文档 都 是 位 于 m 维 空间 中 的 向 量 ,查询 也 可 以 与 文档 一 样 表示 为 m 维 
空间 中 的 向 量 。 


5.3.2 权重 


词语 T, 在 文档 Di 中 的 权重 A(i,j)==L(i,j)XG(i) ,其 中 工 (i, 丫 是 局 
部 权重 (Local Weight) ,体现 了 词语 T; 对 文档 D; 的 重要 程度 ,G(i) 是 全 局 
权重 (Global Weight) ,表示 了 一 个 词语 区 分 其 他 文档 的 能 力 。 

常见 的 局 部 权重 有 57 . 

* TFiLG, D —tf; 

* Log TF: LG.j) —log;Gf; 4-1) 
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见 的 全 部 权重 有 : 
e GF* IDF;GG)— gf;/df, 
* IDF:GG)— log261/d fi) 1 


log; . 
DA og» bp T" 


log; (na) 


* Entropy: GG) 1 


其 中 ,gf; 表示 第 i 个 词语 在 所 有 文档 中 的 出 现 频率 ,df; 表示 含有 第 i 
个 词语 的 文档 的 数目 ,ns 表示 所 有 文档 的 数目 。 

在 向 量 空间 模型 中 最 常用 的 权重 计算 方法 是 TF * IDF ,因为 它 容 易 实 
现 而 且 速 度 较 快 。 

表示 索引 项 到 对 文档 D; 的 重要 程度 , 记 为 wao 

wa = LG) X GG) 6-1) 

其 中 工人 (直人 代表 索引 项 T, 在 文档 D; PARRE. GOO HRID T, 
的 全 局 权重 。 计 算 方法 一 般 采 用 通用 的 if-idf 公 

tfa X log(N/dfa +0.01) "Y 
dæ [fa X log N/df, +0.01) ]? 


其 中 ,tf 表示 索引 项 T 在 文档 D; 中 出 现 的 次 数 ( 即 索引 项 频率 ) ,tf 
越 高 ,意味 着 索引 项 T 对 于 文档 D; 越 重 要 ; d f, do UH SR SEDET, 的 文 
档 数量 ( 即 索 引 项 的 文档 频率 ) ,df 越 高 ,意味 着 索引 项 T 在 衡量 文档 之 间 
相似 性 方面 的 作用 越 低 ; N= 1D|, 即 全 部 文档 的 数量 ,分 母 为 归 一 化 因子 ; 
id fi 二 log(N/dfi) 为 逆向 文档 频率 ,idf 越 高 ,意味 着 索引 项 T 对 于 文档 
的 区 别 作用 越 大 。 如 果 一 个 索引 项 T, 仅 出 现在 一 个 文档 中 , 则 id f£, = 
logC ND, 

如 果 一 个 索引 项 出 在 所 有 的 文档 中 , 则 id f, —logl —0. 


5.3.3 文档 和 检索 项 之 间 的 相关 性 


文档 与 查询 之 间 的 相关 性 可 以 用 文档 向 量 与 查询 向 量 之 间 的 相似 度 
Csimilarity) 来 度量 。 在 向 量 空 间 模型 中 最 常用 的 相似 度 是 余弦 系数 (cosine 
coefficient) ,也 就 是 文档 向 量 与 查询 向 量 之 间 夹 角 的 余弦 。 根 据 线性 代数 知 
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识 ,向 量 之 间 夹 角 的 余弦 实际 上 就 是 将 两 个 向 量规 范 化 Cnormalize) 后 的 内 


积 (inner product) 。 
5.3.4 N 层 向 量 空间 模型 (N-Vector Space Model) 


在 经 典 的 向 量 空间 检索 模型 中 ,文档 和 查询 都 是 用 其 所 包含 的 特征 项 
组 成 的 向 量 来 表示 的 ,并 且 用 文档 与 查询 的 向 量 之 间 夹 角 的 余弦 作为 相似 
性 的 度量 , 夹 角 越 小 ,相似 度 越 大 。 针 对 特定 的 查询 向 量 ,比较 它 与 所 有 文 
档 向 量 的 相似 度 ,并 依 相似 度 将 文档 降序 排序 ,提交 检索 结果 。 由 于 文档 集 
合 中 特征 项 的 数量 远 远大 于 每 一 篇 文档 或 查询 中 特征 项 的 个 数 ,因此 文档 
和 查询 的 向 量 表示 形式 中 的 大 部 分 项 都 为 堆 。 这 些 零 项 将 会 在 计算 特征 项 
的 权重 和 相似 度 时 带 来 很 大 的 时 间 和 空间 复杂 度 , 导 臻 数据 稀 玖 现象 。 男 
外 在 特征 项 抽取 以 及 查询 匹配 过 程 中 ,同一 个 特征 项 出 现在 文档 的 不 同 区 
域 时 , 它 所 表达 文档 内 容 的 能 力 是 不 同 的 ,而 且 在 文档 同一 区 域 , 不 同 的 特 
征 项 所 表达 文档 内 容 的 能 力也 是 有 差别 的 。 使 用 传统 的 向 量 空间 模型 则 会 
认为 这 些 特 征 项 所 表达 文档 的 能 力 完 全 相同 ,不 能 加 以 区 分 。 为 提高 向 量 
空间 模型 的 检索 效率 , 陈 治平 四 等 提出 了 N 层 向 量 空间 模型 的 信息 检索 算 
法 。 将 一 篇 文档 从 组 织 结构 上 划分 为 N 层 ,基于 每 层 的 文本 内 容 建 立 相 应 
的 特征 项 向 量 和 权 值 。 其 中 特征 项 抽取 和 权重 计算 等 同 传统 向 量 空 间 模型 
相同 ,这 样 对 于 文档 进行 N 层 划 分 得 到 的 向 量 空间 模型 就 成 为 N 层 向 量 空 
间 模 型 。 


5.4  N-VSM 的 文档 相似 度 计算 


设 文档 集合 中 共有 n 个 不 同 的 索引 项 Ti,T;,…,T, ,根据 权重 计算 公 
式 计算 文档 D;(1,2,…,m) 的 索引 项 权重 wa ,如 果 把 文档 Di , D,,…,D, 看 
成 一 个 n 维 坐 标 系 ,wa 为 坐标 系 的 值 , 则 d; — (wi? ,wi etw 0T JU n 维 
空间 中 的 一 个 向 量 , 即 文档 D; 的 向 量 表示 如 表 5-1 所 示 。 
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表 5-1 文档 的 向 量 空间 模型 


文档 内 容 特征 ( 词 ) 
文档 集合 
T, T; Ut Tis 
D, un wiz Wim 
D: w waz Wom 
D, Wr Wiz Wem 
D, Wnai Wal Wam 


计算 相似 度 的 方法 有 许多 种 ,通常 用 两 个 向 量 的 夹 角 来 表示 文献 的 相 
似 度 (Jaccard 相似 度 函 数 ) ,其 中 Jaccard 相似 函数 为 : 
2 wewe 
S(q;.di) = cos = 一 一 全 (5-3) 
op» + wey 
k=1 k=1 


5.4.1 常见 的 特征 权重 算法 


特征 项 在 不 同 Web 文本 中 出 现 的 频率 满足 一 定 的 统计 规律 ,因此 常常 
通过 特征 项 的 频率 特性 计算 其 权重 。 关键 词 的 权重 的 计算 方法 有 很 多 : 布 
尔 函 数 、 开 根 号 函数 、TF 函数 、IDF 函数 、TFIDF 公式 法 。 


1. 特征 项 频率 (Term Frequency. TF) 


TF(Term Frequency) 是 频率 特性 , 它 指 的 是 当前 研究 的 频率 的 文档 。 
单词 和 短语 ,也 可 以 是 语义 概念 字典 语义 合并 后 词语 权重 计算 方法 或 概念 
语义 单位 。 不 同类 型 的 文件 的 某 些 特 征 频率 是 非常 不 同 的 项 目 , 所 以 频率 
信息 是 一 种 重要 的 参考 ,一般 在 文本 分 类 技术 价值 更 大 的 特色 项 目 在 这 个 
文件 具有 较 高 的 重量 。 在 原文 本 自动 分 类 ,文献 载体 是 用 来 构建 技术 。 其 
计算 公式 为 : 

wi = TE (ti) = 特征 项 t EX e 文本 中 出 现 的 次 数 
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考虑 到 获取 信息 的 特点 ,使 每 一 体重 之 间 有 较 大 差别 重量 法 的 比率 , 具 
有 明显 的 进步 ,但 只 考虑 频率 信息 会 导致 过 分 依赖 高 频 单 词 和 可 以 放弃 一 
些 很 多 信息 的 低频 的 话 , 在 实际 应 用 中 ,由 于 各 种 不 文本 的 长 度 是 很 难 同 
意 ,各 种 各 样 的 文字 ,文字 包含 数字 可 能 差别 会 很 大 、 频 率 会 造成 直接 的 影 
响 ,我们 通常 将 词 频 正常 化 。 


2. 反 文档 频率 (Inverse Document Frequency, IDF) 


简单 地 说 ,使 用 技术 来 记录 有 用 的 程度 ,一 方面 ,文件 会 大 量 出 现在 一 
些 分 类 中 没有 贡献 的 功能 (如 : 感叹 .介词 .连词 ,等 等 ) ,这 些 话 出 现 频率 一 
般 比 较 大 ,根据 TF 重量 计算 方法 可 以 选择 这 些 没有 很 多 的 信息 功能 分 类 特 
征 ; 另 一 方面 ,特征 词 的 好 坏 是 否 能 代表 类 和 文档 的 属性 。TF 值 高 的 特征 
词 ,如 果 在 所 有 的 文档 中 TF 值 都 高 , 那 就 很 难说 这 样 的 特征 词 到 底 代表 哪 
个 类 或 者 文档 的 属性 。 

IDF 出 现 网 络 文本 数 为 参数 的 特色 项 目 建设 的 权重 。IDF 重量 法 的 出 
发 点 是 一 个 网 络 文献 频率 较 高 , 它 包 含 类 别 信息 就 越 低 。 

IDF 的 计算 方法 如 公式 (5-4) 所 示 : 


JDFCD) = oog( 信 -L) (65-4) 


其 中 ,L 的 取 值 通过 实验 来 确定 (通常 取 0. 01) 。 表 示 为 文件 收集 的 总 
证 明文 件 号 码 , 项 目的 文件 数字 就 会 呈现 出 来 的 特点 。IDF 的 核心 理念 ,在 
大 多 数 文件 算法 不 仅 特 色 项 目 中 都 出 现在 一 小 部 分 文件 出 现在 重要 的 特 
性 。IDF 算法 可 以 在 大 多 数 文件 会 少 了 一 些 高 频 特 性 均 出 现 的 重要 程度 , 同 
时 提高 一 些 在 小 文件 出 现在 低频 率 特性 的 重要 程度 。 


5.4.2 TD-IDF 加 权 公 式 


1. TF-IDF 函数 


针对 这 些 权重 计算 方法 中 所 存在 的 局 限 性 ,人 们 往往 将 反 文档 频率 IDF 
和 TF 结合 使 用 ,也 就 是 TF-IDF 权重 ,TF-IDF 的 归 一 化 计算 方法 如 公式 (5-5) 
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所 示 : 


T TF (£) X IDF (t;) i3 


Sara X IDF (t;))? 

其 中 wi 为 第 i AAR ME ECR P BOR «TF GO ERE t; 在 文本 d ; 
中 出 现 的 频数 ,n 表示 特征 向 量 的 维 数 。 

由 公式 (5-5) 可 以 看 出 TF-IDF 权重 计算 方法 中 主要 考虑 了 三 个 因素 : 

CD 词 频 TF。 通 过 TF 的 定义 可 以 看 出 ,一 个 特征 项 如 果 在 某 一 类 别 
里 出 现 的 频率 很 高 ,那么 这 个 特征 项 可 能 对 于 该 类 别 很 有 代表 性 ,TF 较 大 
的 特征 项 就 在 该 类 文档 中 赋予 一 个 较 高 的 权重 ,所 以 TF-IDF 的 权重 计算 方 
法 考虑 了 TF 值 。 

(2) 反 文档 频率 IDF。IDF 考虑 的 是 如 果 一 个 特征 项 在 较 少 文档 里 面 
出 现 ,那么 它 可 能 更 能 代表 某 一 类 别 的 信息 ,所 以 TF-IDF 的 计算 还 需要 计 
算 IDF 值 。 

(3) 对 于 每 个 部 件 标准 化 归 一 化 的 因素 。 由 于 各 种 文本 的 长 度 是 很 难 
统一 ,各 种 各 样 的 文字 ,文字 包含 一 些 颜 色 , 它 将 有 很 大 的 差异 ,所 以 获得 直 
接 影响 词 频 为 正常 化 。 


2. 标准 TF-IDF 特征 权重 计算 分 析 


TF-IDF 方法 中 IDF 值 的 计算 将 训练 文档 集 作为 一 个 整体 来 考虑 ,并 没 
有 考虑 到 特征 项 在 类 间 的 分 布 信息 。 比 如 说 ,如 果 某 一 类 e; 中 包含 词 条 TT。 
的 文档 数 为 a ,而 其 他 类 包含 互 的 文档 总 数 为 5, 那 么 ,所 有 包含 T, 的 文档 数 
为 n= 二 a 十 b, 显 然 ,a EK «n 也 越 大 ,根据 公式 (5-4) 可 以 得 到 ,IDF 的 值 越 
小 , 则 根据 TF-IDF 的 计算 方法 ,权重 值 也 会 受到 影响 。 但 是 实际 上 ,a 大 的 
话 , 表 示 特 征 项 T 更 频繁 地 在 类 ci 出现 .很 明显 ,Ti 能 更 好 地 代表 ci 类 的 文 
本 特征 ,所 以 在 计算 文本 属于 ci 类 的 后 验 概率 的 时 候 , 应 该 给 词 条 赋予 比较 
高 的 权重 ,从 而 体现 出 T, 对 于 ci 类 的 重要 性 。 

考虑 改进 基于 加 权 的 朴素 贝 叶 斯 分 类 算法 中 的 权重 计算 方法 ,特征 权 
重 的 调整 是 为 了 强调 辨别 能 力 强 的 特征 ,抑制 没有 或 辨别 能 力 低 的 特征 。 
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如 果 采 用 传统 的 TF-IDF 权重 计算 方法 ,那么 对 于 某 一 篇 测试 文本 ,特征 
项 的 TF 值 可 根据 测试 文本 获得 ,这 样 该 特征 项 的 权重 就 由 IDF 值 来 进行 
调整 了 ,而 IDF 不 能 很 好 地 反映 特征 的 重要 性 ,因为 它 的 值 是 基于 将 训练 
集 的 文档 看 成 一 个 整体 来 考虑 的 ,所 以 不 能 表示 特征 项 与 类 别 之 间 的 关 
联 性 。 

因此 不 能 表示 出 特征 项 和 类 别 之 间 的 关联 性 。 然 而 ,所 研究 的 基于 加 
权 的 朴素 贝 叶 斯 分 类 算法 里 权重 的 作用 主要 是 为 了 体现 不 同 特征 项 在 分 类 
时 所 起 作用 的 不 一 样 ,那么 用 TF-IDF 来 计算 权重 显然 不 是 太 合理 。 


5.4.3 基于 贝 叶 斯 理论 的 加 权 计算 


通过 上 面 的 例子 说 明了 传统 TF-IDF 特征 权重 计算 方法 所 存在 的 一 
些 整 端 , 主 要 表现 在 该 方法 中 IDF 值 的 计算 是 将 类 别 中 的 文档 作为 一 个 
整体 来 进行 考虑 的 ,而 没有 考虑 特征 项 在 类 别 中 的 分 布 情况 这 一 重要 信 
息 。 而 向 量 空间 模型 可 以 很 好 地 表征 特征 项 在 Web 文 档 不 同位 置 的 重 
要 程度 ,为 了 弥补 传统 TF-IDF 特征 权重 计算 方法 的 缺陷 ,将 函数 
RTCr1 引 入 到 向 量 空间 模型 来 表示 特征 项 与 类 之 间 的 关联 性 ,在 权重 的 
计算 公式 里 加 入 特征 项 在 类 别 中 的 RTC 值 。 特 征 项 w 0039] 28 26 SC GE 
义 公式 (5-6) 为 ， 


pci | w) 
píci) 


faw) = p(w) X ple: | w)log (5-6) 


其 中 ,p(cslw) 表 示 文 本 中 出 现 特征 项 vo 时 ,文本 属于 类 别 e; 的 概率 ， 
P(c) 是 类 别 出 现 的 概率 。 如 果 特 征 项 和 类 别 强 相 关 , 也 就 是 PCc |w) 大 , 且 
相应 的 类 别 出 现 概率 又 小 的 话 , 则 说 明 词 条 对 分 类 的 影响 大 ,相应 的 函数 值 
就 大 ,就 可 能 被 选中 做 出 特征 项 。 交 又 炉 反 映 了 文本 类 别 的 概率 分 布 和 在 
出 现 了 某 个 特征 词 的 条 件 下 文本 类 别 的 概率 分 布 之 间 的 距离 ,特征 项 w 的 
交叉 箭 越 大 ,对 文本 类 别 分 布 的 影响 也 越 大。 我 们 要 计算 的 权重 吃 表 示 的 
是 特征 项 在 类 别 中 的 权重 ,所 以 这 里 采用 函数 RTC oe don 0L 2B SEGUE TE 


公式 中 ple: lw)log ne 加 的 计算 部 分 ,用 来 衡量 特征 项 和 类 别 之 间 的 关联 
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性 。RTC 的 计算 如 公式 (5-7) 所 示 : 


pii | w) 


RTC(ci,w) = PCc | w)log sis) 


(5-7) 


该 公式 表示 是 特征 项 多 在 c; 类 下 的 RTC 值 。 当 概率 p(ci|w) 较 大 ,而 
p(ei) 又 较 小 的 时 候 , 算 出 的 RTC 值 比较 大 ,也 就 是 表示 特征 项 和 类 别 的 关 
联 性 比较 强 。 

下 面 我 们 将 特征 项 和 类 别 的 RTC 值 考 虑 到 特征 权重 的 计算 公式 当中 
去 ,提出 一 种 新 的 权重 计算 方法 TF-IDF-RTC ,该 方法 考虑 了 特征 项 在 不 同 
类 别 中 的 RTC 值 ,计算 方法 如 公式 (5-8) 所 示 : 


n TF (t:i) X IDF (t;) X RTC (cr .t;) (5-8) 


SI AIF (ti) X IDF (ti) X RIC(C; £5)? 


其 中 wi 表示 的 是 特征 项 ti 在 类 别 ck 下 的 权重 。 


5.4.4 ”基于 NN 层 向 量 空间 模型 的 文档 检索 


由 于 Web 文献 的 特殊 格式 ?0 ,要 求 一 篇 文档 最 少 是 由 文档 标题 、 摘 
要 ,关键 词 和 文档 正文 四 部 分 组 成 ,而 这 四 部 分 的 内 容 对 于 这 篇 文档 的 表达 
能 力 是 不 同 的 ,文献 [12] 通 过 对 随机 采集 的 300 篇 中 文 经 济 类 网 页 进行 人 工 
自由 标 引 、 人 工 打分 、 词 频 统计 ,并 进行 统计 数据 的 分 析 , 得 出 网 页 内 容 主 题 
与 网 页 题名 ,文章 标题 等 12 个 标 引 源 的 关系 ,分 析 中 文 网 页 的 不 同 部 位 的 主 
题 表 达能 力 , 并 为 之 设计 加 权 标 引 时 的 适当 权 值 ,以 便 为 自动 标 引 及 人 工 智 
能 搜索 引擎 的 研制 提供 数据 ,为 考虑 索引 项 出 现在 不 同位 置 的 权重 设置 提 
供 了 理论 基础 。 

在 综合 考虑 标题 .摘要 .关键 词 和 正文 四 个 位 置 , 构 建 四 层 向 量 空间 模 
型 ,并 考虑 了 某 个 特征 项 同时 出 现在 标题 和 关键 词 的 现象 。 论 文 是 科学 
研究 中 创造 性 思想 的 载体 , 它 的 首要 任务 在 于 传递 科研 信息 ,同时 也 具 
有 文化 储存 和 文化 积累 的 意义 。 无 论 是 从 传递 信息 角度 ,还 是 储存 信息 
角度 考虑 ,主题 词 或 关键 词 的 标 引 都 将 给 文献 的 储存 和 检索 带 来 极 大 的 
方便 。 
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为 了 确定 索引 项 在 不 同位 置 的 权重 ,假设 在 一 个 Web 文档 集中 及 
个 文档 D1,D2, D3,…, Dn, 这 nn 个 文档 中 都 包含 索引 项 TT, 并 且 械 在 这 
2 个 文档 中 出 现 次 数 都 相同 。 如 果 在 文档 Di 中 , 工 是 被 包含 在 标题 中 ,在 
文档 Dj 中 , 工 是 被 包含 在 摘要 中 ,在 文档 Dk 中 , 工 同 时 被 包含 在 标题 和 
关键 词 中 ,在 Dm 中 , 工 是 被 包含 在 正文 中 ,运用 传统 的 信息 搜索 引擎 则 会 
认为 索引 项 工 表 达 这 几 个 文档 的 能 力 完全 相同 。 根 据 以 上 分 析 结 果 ,出 
现在 标题 中 的 索引 项 要 比 出 现在 摘要 中 的 索引 项 更 能 确切 代表 文档 的 
内 容 , 同 样 出 现在 摘要 中 的 索引 项 也 要 比 出 现在 正文 中 的 索引 项 更 能 代 
表 文 档 的 内 容 , 而 同时 出 现在 标题 和 关键 词 中 更 能 确切 的 代表 文档 的 
内 容 。 

为 了 更 好 地 提高 用 户 的 检索 要 求 ,采取 如 下 步骤 改进 检索 模型 : 

(1) 从 文档 中 抽取 关键 词 ,根据 公式 (5-8) 计 算 权 重 ; 

(2) 将 用 户 检索 项 和 待 检索 文档 表示 成 向 量 空间 中 的 向 量 ; 

C3) 根据 检索 项 在 文档 不 同位 置 (标题 .摘要 ,关键 词 和 正文 ) 构 建 四 层 
向 量 空间 模型 ,同时 考虑 在 关键 词 和 标题 同时 出 现 的 情况 ; 

(4) 对 检索 项 在 不 同位 置 出 现 的 情况 赋予 不 同 的 权重 ,利用 夹 角 余弦 来 
计算 相似 度 , 得 到 检索 兴趣 度 最 高 的 文本 。 


处 理 过 程 如 图 5-2 所 示 。 
-| 抽取 mel /文档 或 查 论 
HE -omn 的 向 量 表示 


得 到 检索 | _ 计算 相似 度 
结果 排序 


图 5-2 N 层 向 量 空间 系统 处 理 图 
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文档 的 N 层 向 量 空间 表示 ,如 表 5-2 所 示 。 
R52 和 层 向 量 空间 模型 


文档 内 容 特 征 ( 词 ) 
文档 集合 
T Ti e T, 
Di wu * Mj wiz * yj TE Wim * Mmj 
D; Ua * Mj Uso * Tj sem Wom * Mmj 
D, Wa * hj Wez * ej e Weim * Tmj 
D, Wa * hj Wa * pj s.. Wam Y Tmj 


Hop on 为 索引 项 Tk 在 文档 D; 出 现在 第 j 层 在 权重 ,) 一 1,2,3,4。 


5.5 检索 结果 排序 算法 


信息 检索 的 核心 问题 之 一 是 在 系统 检索 出 的 结果 集中 运用 排序 算法 对 
检索 结果 按照 一 定 的 相关 性 进行 排序 。 排 序 函 数 是 以 某 种 准则 计算 文档 信 
息 与 用 户 检索 信息 的 相关 性 判断 ,根据 相关 度 进行 降序 排列 。 排 序 技术 是 
信息 检索 系统 进行 结果 处 理 的 核心 技术 ,排序 策略 直接 影响 到 检索 系统 的 
查 准 率 和 查 全 率 ,排序 算法 的 优 劣 直接 影响 系统 的 效率 。 典 型 的 检索 系统 
排序 技术 主要 有 词 频 统 计 和 词 位 置 加 权 排 序 算法 、 基 于 用 户 反馈 的 Direct 
Hit HIA PageRank 链接 分 析 算法 和 Hits 排序 算法 四 种 ,早期 搜索 引擎 如 
Infoseek, Lycos 等 采用 的 是 词 频 统计 和 词 位 置 加 权 排 序 技术 ,现在 流行 的 两 
大 搜索 引擎 Google, 百度 采用 的 是 超 链 分 析 排 序 技术 。 本 节 主 要 分 析 讨 论 
基于 链接 的 排序 算法 ,并 对 排序 函数 做 了 改进 研究 。 


5.5.1 超 链 分 析 排序 技术 


人 们 在 传统 信息 检索 排序 技术 的 基础 上 ,结合 网 络 信息 检索 自身 特性 ， 
提出 了 许多 Web 页 面 检索 排序 算法 , 主要 分 为 三 类 : 基于 网 页 内 容 的 排序 
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算法 ,基于 网 页 链接 分 析 的 排序 和 基于 检索 用 户 的 排序 算法 ,在 实际 应 用 中 
往往 会 综合 应 用 这 些 算法 。 

最 著名 的 基于 链接 分 析 的 算法 是 由 Page 提出 的 PageRank 算法 和 
Kleinberg 提出 的 HITS 算法 ,有 是 PageRank 在 Google 中 的 应 用 获得 了 巨大 
的 商业 成 功 。 由 于 Web 文档 涉及 参考 文献 的 引用 问题 ,所 以 将 其 看 作 是 一 
种 基于 链接 的 信息 资源 ,所 以 对 现 有 的 PageRank 算法 进行 了 分 析 和 综述 ， 
并 将 其 引入 Web 文档 检索 的 向 量 空间 模型 3] 。 


1. PageRank 算法 


基本 思想 : 如 果 网 页 T 存在 一 个 指向 网 页 A 的 连接 , 则 表明 T 的 所 
有 者 认为 A 比较 重要 ,从 而 把 T 的 一 部 分 重要 性 得 分 赋予 A。 这 个 重要 
性 得 分 值 为 : PRCT)VCCT) ,其 中 PRCT) 为 工 的 PageRank 值 ,CCT) 为 工 
的 出 链 数 , 则 A 的 PageRank 值 为 一 系列 类 似 于 工 的 页 面 重要 性 得 分 值 的 
累加 。 

优点 : 是 一 个 与 查询 无 关 的 静态 算法 ,所 有 网 页 的 PageRank 值 通过 
离线 计算 获得 ; 有 效 减 少 在 线 查 询 时 的 计算 量 , 极 大 降低 了 查询 响应 
时 间 。 

不 足 : 人 们 的 查询 具有 主题 特征 ,PageRank 忽略 了 主题 相关 性 ,导致 
结果 的 相关 性 和 主题 性 降低 ; 另外 , PageRank 有 很 严重 的 对 新 网 页 的 
歧视 。 


2. Topic-Sensitive PageRank( 主 题 敏感 的 PageRank) 


基本 思想 : 针对 PageRank 对 主题 的 忽略 而 提出 。 核 心思 想 : 通过 离线 
计算 出 一 个 PageRank 向 量 集合 ,该 集合 中 的 每 一 个 向 量 与 某 一 主题 相关 ， 
即 计算 某 个 页 面 关 于 不 同 主题 的 得 分 。 主 要 分 为 两 个 阶段 : 主题 相关 的 
PageRank 向 量 集合 的 计算 和 在 线 查 询 时 主题 的 确定 。 

优点 : 根据 用 户 的 查询 请 求 和 相关 上 下 文 判断 用 户 查 询 相关 的 主题 (用 
户 的 兴趣 ) 返 回 查询 结果 准确 性 高 。 
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不 足 : 没有 利用 主题 的 相关 性 来 提高 链接 得 分 的 准确 性 。 
3. Hilltop 


基本 思想 : 5j PageRank 的 不 同 之 处 是 仅 考 虑 专家 页 面 的 链接 。 主 要 
包括 两 个 步 又: 专家 页 面 搜索 和 目标 页 面 排序 。 

优点 : 相关 性 强 ,结果 准确 。 

不 足 : 专家 页 面 的 搜索 和 确定 对 算法 起 关键 作用 ,专家 页 面 的 质量 决定 
了 算法 的 准确 性 ,而 专家 页 面 的 质量 和 公平 性 难以 保证 ; 忽略 了 大 量 非 专家 
页 面 的 影响 ,不 能 反应 整个 Internet 的 民意 ; 当 没 有 足够 的 专家 页 面 存 在 
时 ,返回 空 ,所 以 Hilltop 适合 对 于 查询 排序 进行 求 精 。 

影响 google PageRank 的 因素 : 

CD. 与 pr 高 的 网 站 做 链接 ; 

(2) 内 容 质 量 高 的 网 站 链接 ; 

G) 加 入 搜索 引擎 分 类 目录 ; 

(4) 加 入 免费 开源 目录 ; 

(5) 你 的 链接 出 现在 流量 大 、 知 名 度 高 .频繁 更 新 的 重要 网 站 上 ; 

(6) Google 对 PDF 格式 的 文件 比较 看 重 ; 

(7) 安装 Google 工具 条 ; 

(8) 域名 和 tilte 标题 出 现 关 键 词 与 meta 标签 等 ; 

(9) 反 向 连接 数量 和 反 向 连接 的 等 级 ; 

(10) Google 抓 取 您 网 站 的 页 面 数 量 ; 

(11) 导出 链接 数量 。 


5.5.2 Page Rank 算法 分 析 


简短 的 等 级 的 算法 是 基于 网 络 图 模型 ,整个 网 页 结构 逻辑 可 作为 一 种 
巨大 的 有 向 图 (V,E),V 是 节点 集 , 每 一 页 都 是 这 个 数字 在 一 个 节点 ,页 面 可 
以 看 作 是 网 络 信 息 的 载体 。E 是 一 家 集 向 边 , 如 果 你 的 页 面 vl 包含 一 个 指 
针 指 向 页 v2 超 链接 , 即 存在 一 条 有 向 边 Hy-perlink(v1 与 v2)。 用 超 链接 观 
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fx zi] ,可 以 浏览 页 面 的 页 和 超 文本 链接 构成 巨大 的 有 向 图 。 

PageRank 算法 从 文学 最 初 思想 理论 , 即 参 考 文献 的 重要 性 可 以 利用 文 
献 的 数量 和 质量 计量 ,引证 了 说 明文 献 参考 价值 ,更 有 价值 的 文献 引用 说 明 
文学 的 重要 性 越 高 。 简 短 的 排名 算法 可 以 被 描述 为 : 


三 PRO 4 p T 
PRGO 2 NO FEl) (5-9) 


式 中 PR) RIR W H u 的 PageRank 值 (重要 度 )。w 为 指向 页 面 的 页 
面 ,B(4) 为 指向 的 页 面 集合 ,N(v) 为 页 面 vv 的 导出 超 链 接 数 ,c 是 取 (0,1) 之 
间 的 规范 化 因子 ,E(w) 是 衰减 因子 。 由 此 可 以 得 出 这 样 的 结论 ,页 面 的 重要 
度 来 自 指向 它 的 页 面 的 重要 度 , 同 时 ,页 面 的 重要 度 被 平均 分 配给 页 面 的 导 
出 链接 。 

PageRank 算法 的 优点 是 避免 计算 纯 文本 匹配 的 重要 性 的 页 面 ,利用 网 
络 模型 超 链 接 页 面 的 数量 和 质量 评估 页 面 的 权力 ,为 客观 地 评价 网 络 资源 
的 有 效 手 段 , 也 可 以 看 到 的 PageRank 算法 是 一 种 和 查询 关键 词 无 关 的 静态 
的 网 页 质量 的 计算 方法 。 

利用 向 量 空间 模型 (Vector Space Model) 来 计算 检索 关键 字 和 网 络 文 
档 关 联 。 在 传统 信息 检索 系统 .向 量 空 间 模 型 计算 相似 度 计算 模型 的 文件 
之 间 ,在 这 个 模型 的 文档 ,向 量 来 的 术语 文件 由 合金 的 成 分 .表达 权 值 向 量 
的 词 元 权重 ,通常 是 词 出 现 的 频率 。 


5.5.3 Page Rank 算法 的 改进 


1. 理论 分 析 


采用 N 层 向 量 空间 模型 表示 的 文档 均 为 矩阵 (如 表 5-2 所 示 ) ,为 计算 
方便 ,采取 马尔 科 夫 链 的 转移 概率 来 简化 矩阵 的 运算 。 对 于 由 检索 项 构成 
的 矩阵 ,用 检索 项 出 现 的 频率 来 代替 随机 概率 ,以 改进 现在 的 基于 文本 链接 
的 Page Rank 算法 。 

具体 过 程 如 下 ,由 于 改进 的 N 层 向 量 空间 模型 ,不 仅 考虑 了 检索 项 出 现 
在 不 同位 置 的 情况 ,还 考虑 在 不 同位 置 同时 出 现 的 情况 ,将 同时 出 现 的 情况 
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看 做 是 在 某 一 位 置 出 现 的 条 件 概率 ,这 样 对 于 上 一 
做 是 一 个 马尔 科 夫 链 , 即 得 到 权重 矩阵 以 后 进行 转 置 .把 各 个 列 向 量 (同一 
个 检索 项 出 现在 不 同 的 文档 ) 处 以 出 现 该 检索 项 的 文档 总 数 ,这样 得 到 检索 
项 推移 概率 矩阵 ,各 个 行 向 量 表示 同一 个 文档 出 现 不 同 检索 项 的 概率 ( 频 
率 )。 转 置 在 于 ,对 于 同一 个 检索 项 ,排序 算法 不 考虑 两 个 文档 之 间 的 引用 


2. 算法 设计 


针对 改进 后 的 N 层 向 量 空间 模型 ,对 相似 度 相同 的 结果 进行 第 二 次 排 
移 概率 计算 ,以 简化 其 计 


序 。 由 于 NN 层 向 量 空间 的 处 理 对 象 是 矩阵 ,采用 转 
算法 描述 : 
CD 通过 权重 函数 计算 检索 项 的 权重 矩阵 ， 
(2) 计算 转移 概率 矩阵 ; 
(3) 求 得 各 个 检索 项 的 转移 概率 ; 
(4) 进行 迭代 ,直到 马尔 科 夫 链 收敛 。 


算法 简 例 : 如 果 我 们 通过 改进 后 的 权重 计算 公 
PII 
TETEE 
Fo 

M= -L 0 0 0 T 0 
TE 


o 
o 
© 
o 
| 
e 


加 | 一 


式 得 到 如 下 权重 和 矩阵 : 


0 


章 的 权重 计算 就 可 以 看 


第 5 章 基于 N-VSM 的 全 文 检索 139 


而 通过 该 算法 计算 后 得 到 的 转移 矩阵 为 ， 


0 1 0.6735 0 0.6222 0.7098 0 
0.3133 0 0.3265 0.3766 0 0 0 
0.2543 0 0 0.3057 0.2448 0 0 

M'—/0.1326 0 0 0 0.1276 0 0 
0.2642 0 0 0.3177 0 0.2902 1 
0 0 0 0 0.0054 0 0 
0.0357 0 0 0 0 0 0 


该 矩阵 不 论 是 数学 期 望 还 是 方差 ,在 其 计算 上 ,都 比 原来 的 矩阵 要 简单 
得 多 。 


5.6 N 层 向 量 空间 模型 权重 实验 仿真 


实验 是 在 基于 Lucene 全 文 检 索引 擎 55 系统 架构 下 设计 的 , Web 文献 
检索 的 N 层 向 量 空间 模型 中 ,每 层 的 权重 对 检索 结果 影响 很 大 ,为 了 更 加 准 
确 表示 , 特 设置 了 四 个 仿真 实验 ,确定 四 层 向 量 空间 模型 的 权重 。 


5.6.1 实验 数据 和 实验 结果 


从 维普 数据 库 上 下 载 了 有 关 计 算 机 方面 的 Web 文献 1000 篇 ,从 索引 库 
中 找 出 和 计算 机 有 关 的 常用 词组 2000 个 ,以 此 构建 检索 数据 源 的 索引 库 。 

将 文档 分 为 标题 .摘要 关键 词 和 正文 四 部 分 ,得 到 四 层 向 量 空间 模型 ， 
并 考虑 索引 项 同时 出 现在 标题 和 关键 来 设 定 权重 。 为 方便 用 户 根据 自己 的 
需要 来 控制 检索 结果 和 比较 不 同 的 权重 ,采取 四 个 实验 来 验证 改进 的 模型 。 
同时 ,为 保证 查 准 率 进行 多 次 试验 证 明 , 门 槛 值 选取 在 0. 1 一 0. 3, 查 全 率 和 
查 准 率 对 比 效果 比较 明显 ,因此 四 个 试验 门槛 值 均 采用 0. 2 进行 。 


1. 实验 1 一 一 标题 权重 


设 定 p —0.9 GRZ) 5. —0. 9 BE TS «9, —0. 8( 正 文 ) ,六 三 1( 同 时 出 
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现在 标题 和 关键 词 ,不 用 统计 词 频 ) ,而 改变 标题 的 权重 ,实验 数据 如 表 5-3 
所 示 ,检索 结果 如 图 5-3 所 示 。 
表 5-3 实验 1 数据 表 


标题 权重 0 0.95 0.9 0.85 0.8 
查 准 率 (%) 91.35 93.21 90. 46 86. 37 820.5 
不 同 标题 权重 的 查 准 率 


一 一 查 准 率 


查 准 率 (%) 


0.8 0.85 0.9 0.95 1 


位 置 权重 


图 5-3 不 同 标题 权重 的 查 准 率 


2. 实验 2 一 一 摘要 权重 


设 定 m =0. 95 RED » q =0. 9 OE BR] 9, —0. 8GIE 3O «s — 1CIRDISE tH 
现在 标题 和 关键 词 ,统计 词 频 ) ,而 改变 摘要 的 权重 ,实验 数据 如 表 5-4 所 示 ， 
折线 图 如 图 5-4 所 示 。 

表 5-4 实验 2 数据 表 
摘要 权重 0.9 0. 85 0.8 0. 75 0.7 
查 准 率 (%) 92. 81 86.65 83.57 75.68 71.02 


3. 实验 3 一 一 关键 词 权重 


BE —0. 95( 标 题 ) , 思 一 0. 9( 摘 要 ) ,二 0.8( 正 文 ) ,六 一 1( 同 时 出 现 
在 标题 和 关键 词 ,不 统计 词 频 ) ,而 改变 关键 词 的 权重 ,实验 数据 如 表 5-5 所 
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不 同 摘要 权重 的 查 准 率 

95 

90 
S gs 
w 一 一 查 准 率 | 
$ go 
Xi 

75 

70 

07 075 08 085 09 
位 置 权 重 


图 5-4 不 同 摘要 权重 的 查 准 率 
zm ,折线 图 如 图 5-5 所 示 。 


表 5-5 实验 3 数据 表 


关键 词 权重 0.9 0.85 0.8 0.75 0.7 
查 准 率 (%) 92. 81 93. 00 88. 94 85. 76 80. 46 
不 同 关键 词 权重 的 查 准 率 
95 
0 
Š gs 
i 
80 
b 
75 
70 


07 075 08 085 09 
位 置 权 重 


图 5-5 不 同 关键 词 权重 的 查 准 率 


4. 实验 4 一 一 标题 和 关键 词 权 重 


设 定 m —0. 95 HD «0 二 0.9( 摘 要 ) > s — 0. 85 OE E iD «3, — 0. 8GIE 
文 ) ,改变 同时 出 现在 标题 和 关键 词 的 权重 ,实验 数据 如 表 5-6 Bron ,折线 图 
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如 图 5-6 所 示 。 
表 5-6 实验 4 数据 表 


同时 出 现 权重 1 0. 95 0.9 0. 85 
查 准 率 (%) 93. 86 91.65 89. 94 87.76 


同时 出 现 的 查 准 率 
一 一 查 准 率 
0.85 0.9 0.95 1 
同时 出 现 的 权重 


图 5-6 同时 出 现 的 查 准 率 


综合 实验 : 根据 以 上 四 个 实验 比较 发 现 , 设 定 s — 0. 95 ERIS p —0. 9 
(摘要 ) >p =0. 85( 关 键 词 ) ,二 0.8 (正文 ) ,加 = 二 1( 同 时 出 现在 标题 和 关键 
di] ,不 统计 词 频 ) , 查 准 率 有 明显 的 提高 ,综合 实验 数据 如 表 5-7 所 示 。 


表 5-7 综合 实验 数据 表 


查 准 率 (%) 
门 槛 值 
VSM N-VSM 
0.1 78. 30 85. 63 
0.2 86. 60 93.36 
0.3 93.21 100 
0.4 100 100 
0.5 100 100 
0.6 100 100 
0.7 100 100 


5.6.2 实验 分 析 


从 以 上 四 个 试验 的 结果 比较 可 知 ,标题 的 权重 控制 在 0. 85 一 1 比较 合 
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适 , 摘 要 的 权重 控制 在 0. 8 一 0. 9 直接 比较 合适 ,关键 词 的 权重 控制 在 0. 75— 
0. 9 直接 比较 合适 ,而 考虑 索引 项 同时 出 现在 摘要 和 标题 的 权重 在 0.8 一 1 
之 间 都 比较 合适 。 

从 以 上 实验 我 们 可 以 得 到 如 下 结论 ,由 于 标题 体现 出 论文 的 主题 观点 ， 
所 以 要 选取 稍微 大 的 权重 ,而 摘要 和 关键 词 体现 出 论文 的 整体 结构 和 层次 ， 
而 且 摘 要 中 要 考虑 索引 项 的 词 频 ,所 以 可 稍微 降低 一 点 权重 ,而 考虑 索引 项 
同时 出 现在 标题 和 关键 词 的 情况 ,将 其 权重 控制 在 一 个 合适 的 范围 即 可 。 
从 实验 的 数据 结果 和 以 上 理论 分 析 , 本 次 改进 的 N 层 向 量 空间 模型 ,能 较 好 
地 适应 Web 文献 的 信息 检索 ,提高 了 检索 的 准确 性 。 
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第 6 章 领域 知识 的 描述 与 本 体 建 模 


自然 语言 一 直 是 一 种 有 效 的 表示 知识 和 交流 知识 的 有 效 方法 ,然而 计 
算 机 网 络 环境 下 的 知识 库 系 统 却 不 能 用 自然 语言 来 表示 知识 ,根本 原因 是 
它 的 二 义 性 和 缺乏 一 致 性 的 结构 。 要 实现 计算 机 自动 处 理 知 识 并 对 知识 问 
题 进 行 求解 ,必须 准确 描述 知识 ,以 某 种 一 致 化 的 结构 存储 和 组 织 知 识 。 根 
据 本 体 论 的 基本 观点 ,任何 复杂 事物 都 可 以 从 中 剥离 出 事物 的 本 质 , 也 就 是 
事物 的 最 小 化 描述 , 即 本 体 。 随 着 语义 网 技术 的 发 展 ,基于 可 扩展 标记 语言 
(XML) 的 DC(CDublinCore) 元 数据 在 知识 本 体 趾 的 描述 中 越 来 越 受 到 青睐 。 


6.1 本 体 


本 体 (Ontology) 是 近年 来 计算 机 及 相关 领域 普遍 关注 的 一 个 研究 热 
点 ,作为 一 种 能 在 语义 和 知识 层次 上 描述 信息 系统 的 概念 模型 建 模 工 具 , 已 
被 广泛 应 用 于 知识 工程 .系统 建 模 、 信 息 处 理 、 数 字 图 书馆 .自然 语言 理解 、 
语义 Web 等 领域 之 中 。 本 体 明确 了 领域 内 共同 认可 的 概念 术语 ,利用 领域 
知识 的 语义 模型 表达 了 概念 含义 ,并 在 内 部 层次 当中 规定 了 这 些 概 念 之 间 
的 关系 ,为 知识 表示 以 及 获取 葛 定 了 基础 。 

20 世纪 90 年 代 以 来 ,研究 人 员 从 各 自 的 专业 角度 出 发 对 本 体 的 理论 和 应 
用 进行 了 深入 研究 ,取得 了 丰富 的 研究 成 果 , 本 体 理 论 与 技术 也 随 之 日 趋 成 熟 。 


6.1.1 本 体 的 相关 概念 


本 体 的 概念 来 自 哲 学 领域 ,研究 事物 客观 存在 的 本 质 ,是 对 客观 存在 的 
系统 的 阐释 或 说 明 , 重 点 关注 客观 存在 的 抽象 本 质 。 后 来 被 用 于 计算 机 学 
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科 并 受到 广泛 关注 ,但 是 本 体 的 定义 在 计算 机 领域 并 未 得 到 统一 ,学 者 们 相 
继 给 出 了 本 体 的 不 同 定义 ,其 中 Gruber 在 1993 年 给 出 的 定义 最 为 流行 : 
“本 体 是 概念 模型 规范 化 的 描述 ”, 而 人 们 认可 最 多 的 是 Studer 对 本 体 的 定 
义 , 他 认为 本 体 是 共享 概念 模型 准确 的 形式 化 描述 。 这 个 定义 包含 四 层 含 
X: 共享 (Share) 概念 化 (Conceptualization)、 明确 性 (Explicit) 和 形式 化 
(Formal) 。 

(1) 共享 指 本 体 中 的 知识 是 大 家 都 认同 的 ,是 协商 一 致 的 ; 

(2) 概念 化 指 对 事物 的 描述 表示 成 一 组 概念 ; 

(3) 明确 指 本 体 中 全 部 的 术语 、 属 性 及 公理 都 有 准确 的 规范 ; 

(4) 形式 化 指 计算 机 可 以 对 其 处 理 。 

除了 这 两 种 定义 ,不 同学 者 从 不 同 研究 背景 出 发 ,给 出 了 本 体 的 许多 不 
同 定义 ,尽管 没有 统一 ,但 是 定义 都 是 从 不 同 角度 合理 解释 本 体 , 这 些 定义 
相互 补充 并 使 本 体 应 用 范围 扩大 ,而 且 定义 的 本 质 差 别 都 不 大 ,都 认为 本 体 
是 共享 概念 模型 的 反映 ,并 对 其 进行 了 准确 的 描述 。 

Perez 等 人 认为 本 体 可 以 按 分 类 法 来 组 织 , 他 归纳 出 本 体 包含 5 个 基本 
的 建 模 元 语 (Modeling Primitive)。 这 些 元 语 分 别 为 : 类 (classes)、 关 系 
(relations) 函数 (functions) ,公理 (axioms) 和 实例 (instances)。 其 中 ,类 也 
可 以 称 作 概 念 。 

(1) 函数 和 公理 

概念 的 含义 很 广泛 ,可 以 指 任何 事物 ,如 工作 描述 功能、 行为 .策略 和 
推理 过 程 等 等 。 函 数 是 一 类 特殊 的 关系 ,在 这 种 关系 中 前 n 一 1 个 元 素 可 以 
唯一 决定 第 n 个 元 素 。 例 如 Mother-of 关系 就 是 一 个 函数 ,其 中 Mother- 
of (x,y) 表 示 y 是 x 的 母亲 ,显然 x 可 以 唯一 确定 他 的 母亲 y。 

公理 是 对 本 体 结构 的 描述 ,包括 两 种 形式 的 公理 : C 包含 于 D, 或 者 C 
等 于 D, 其 中 C、D 可 以 是 原子 或 者 复合 的 概念 或 者 属性 。 公 理 代 表 永 真 断 
言 ,比如 概念 乙 属 于 概念 甲 的 范围 。 实 例 代表 元 素 。 

(2) 概念 之 间 的 关系 

关系 代表 了 在 领域 中 概念 之 间 的 交互 作用 ,如 : 子 类 关系 (subclass- 
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of) 。 从 语义 上 分 析 ,实例 表示 的 就 是 对 象 ,而 概念 表示 的 则 是 对 象 的 集合 ， 
关系 对 应 于 对 象 元 组 的 集合 。 概 念 的 定义 一 般 采 用 框架 (frame) 结 构 , 包 括 
概念 的 名 称 , 与 其 他 概念 之 间 关 系 的 集合 ,以 及 用 自然 语言 对 该 概念 的 描 
述 。 基 本 的 关系 有 4 种 : part-of, kind-of, instance-of 和 attribute-of。Part- 
of 表达 概念 之 间 部 分 与 整体 的 关系 ; kind-of 表达 概念 之 间 的 继承 关系 ,类 
似 于 面向 对 象 中 的 父 类 和 子 类 之 间 的 关系 ; Instance-of 表达 概念 的 实例 和 
概念 之 间 的 关系 ,类 似 于 面向 对 象 中 的 对 象 和 类 之 间 的 关系 ;attribute-of 表 
达 某 个 概念 是 另外 一 个 概念 的 属性 。 在 实际 的 应 用 中 ,不 一 定 要 严格 地 按 
照 上 述 5 类 元 语 来 构造 本 体 。 同 时 概念 之 间 的 关系 也 不 仅 限于 上 面 列 出 的 
4 种 基本 关系 ,可 以 根据 特定 领域 的 具体 情况 定义 相应 的 关系 ,以 满足 应 用 
的 需要 。 

总 之 ,本 体 的 目标 是 通过 明确 描述 相关 领域 知识 并 对 其 进行 统一 表示 
和 定义 ,使 得 大 家 共同 理解 该 领域 知识 并 在 同一 领域 不 同系 统 间 可 以 共享 ， 
使 人 们 更 容易 的 获取 领域 知识 。 本 体 的 定义 也 决定 了 它 的 两 个 不 同 特性 : 
它 对 客观 存在 概念 模型 的 反应 使 得 其 具有 静态 性 ; 而 它 应 用 范围 的 广泛 使 
得 其 具有 动态 性 。 因 为 领域 不 同 、 服 务 对 象 不 同时 本 体 的 定义 和 构造 也 不 
相同 。 


6.1.2 本 体 分 类 


知识 系统 中 存在 不 同 种 类 的 本 体 ,根据 不 同 的 分 类 标准 ,可 以 将 本 体 分 
为 不 同 的 种 类 。Mizoguchi 等 人 根据 语 境 相关 和 语 境 无 关 的 分 类 标准 将 本 
体 分 为 : 领域 本 体 、 常 识 本 体 、 元 本 体 和 任务 本 体 。 而 Van Heijst 等 人 则 将 
本 体 按 概 念 结构 的 数量 和 类 型 及 概念 的 主题 两 个 维度 来 分 类 。 若 按 第 一 个 
维度 来 分 ,本 体 可 分 为 : 术语 本 体 、 信 息 本 体 和 知识 建 模 本 体 ; 若 按 第 二 个 
维度 来 分 ,本 体 又 可 分 为 : 应 用 本 体 、 领 域 本 体 、 通 用 本 体 和 表示 本 体 。 人 们 
一 般 根据 本 体 的 依赖 程度 将 其 划分 为 顶层 本 体 、 领 域 本 体 、 任 务 本 体 和 应 用 
本 体 。 其 层次 关系 如 图 6-1 所 示 。 

(1) 顶层 本 体 : 顶层 本 体 主要 研究 和 描述 最 普通 的 概念 ,定义 了 最 基本 
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顶级 本 体 


领域 本 体 任务 本 体 


i cl 


应 用 本 体 


本 体 和 表达 语言 


图 6-1 本 体 分 类 图 


的 概念 类 、 属 性 及 语义 关系 ,如 行为 时间、 事物 等 , 它 不 依靠 于 特定 的 问题 
与 领域 ,共享 范围 广 。 其 他 种 类 的 本 体 都 是 该 类 本 体 的 特例 。 

(2) 领域 本 体 : 领域 本 体 没 有 顶层 本 体 那么 广泛 的 共享 性 ,是 专业 性 的 
本 体 ,对 某 个 特定 领域 中 相关 的 概念 及 概念 之 间 的 关系 进行 研究 ,如 医学 、 
农业 等 。 这 里 的 “领域 "是 根据 本 体 构 建 者 的 需求 来 确立 的 , 它 可 以 是 一 个 
学 科 领 域 ,可 以 是 某 几 个 领域 的 一 种 结合 ,也 可 以 是 一 个 领域 中 的 一 个 小 
范围 。 

(3) 任务 本 体 : 任务 本 体 与 领域 本 体 的 处 在 相同 的 研究 层次 , 它 主要 是 
定义 一 些 通用 的 任务 或 推理 活动 ,主要 描述 具体 的 任务 中 的 概念 及 概念 之 
间 的 关系 ,如 培育 、 治 疗 等 。 

(4) 应 用 本 体 : 主要 用 来 描述 在 一 定 领域 下 为 完成 某 项 任务 而 需要 的 
相关 术语 及 术语 间 的 关系 。 

从 图 6-1 中 可 以 看 出 各 类 型 本 体 相互 关联 ,领域 本 体 和 任务 本 体 处 于 同 
一 研究 层次 ,它们 都 可 以 共享 顶层 本 体 中 定义 的 通用 概念 ,而 应 用 本 体 同时 
依赖 特定 领域 和 特定 任务 或 行为 。 

本 体 种 类 对 任务 和 领域 的 依赖 程度 可 以 用 如 图 6-2 表示 。 

1999 年 ,Perez 和 Benjamins 在 分 析 和 研究 了 各 种 Ontologies 分 类 法 的 
基础 上 ,归纳 出 10 种 Ontologies: 知识 表示 Ontologies、 普 通 Ontologies, M 
级 Ontologies, Jt (Z -Ù ) Ontologies, i$ Ontologies、 语 言 Ontologies、 任 务 
Ontologies、 领 域 任务 Ontologies、 方 法 Ontologies 和 应 用 Ontologies。 这 种 
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具象 化 


任务 
依赖 度 


图 6-2 本体 层 次 模型 图 


分 类 法 是 对 Guarin 提出 的 分 类 方法 的 扩充 和 细 化 ,但 是 这 10 种 Ontology 
之 间 有 交叉 ,层次 不 够 清晰 。 


6.2 领域 本 体 建 模 


领域 本 体 是 用 于 描述 指定 领域 知识 的 一 种 专门 本 体 , 它 给 出 了 领域 实 
体 概念 化 及 相互 关系 领域 活动 以 及 该 领域 所 具有 的 特性 和 规律 的 一 种 形式 
化 描述 四 。 有 关 本 体 论 方法 的 研究 和 应 用 在 知识 工程 、 自 然 语言 理解 和 知 
识 表示 等 领域 日 益 受 到 重视 。 领 域 本 体 (Domain Ontology) 是 专业 性 的 本 
体 ,提供 了 某 个 专业 学 科 领 域 中 概念 的 词 表 以 及 概念 间 的 关系 ,或 在 该 领域 
里 占 主导 地 位 的 理论 。 

目前 本 体 模型 的 研究 已 经 进入 到 实际 应 用 阶段 。 许 多 研究 领域 目前 都 
建立 了 自己 标准 的 本 体 , 目 前 ,Web 上 有 许多 可 重用 的 本 体 资源 库 , 这 使 得 
诸多 领域 专家 能 够 使 用 它们 来 共享 和 评注 领域 中 的 信息 。 构 建 领域 本 体 要 
捕获 相关 的 领域 知识 ,提供 对 该 领域 知识 的 共同 理解 ,确定 该 领域 内 共同 认 
可 的 词汇 ,并 从 不 同 层次 的 形式 化 模式 上 给 出 这 些 词 汇 ( 术 语 ) 和 词汇 之 间 
相互 关系 的 明确 定义 。 

本 体 工程 方法 包括 特定 领域 的 本 体 开发 ,如 金融 、 化 学 、 生 物 领 域 本 体 ， 
还 包括 通常 知识 的 本 体 库 。 领 域 本 体 是 对 特定 领域 内 概念 及 概念 间 的 关系 
的 精确 描述 。 领 域 本 体 的 建立 对 于 需要 交换 信息 共享 信息 的 人 或 者 异 构 系 
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统 来 说 ,将 有 助 于 消除 在 概念 和 术语 上 的 分 歧 , 对 于 领域 内 的 概念 理解 达成 
共识 。 其 目标 是 捕获 相关 领域 的 知识 ,提供 对 该 领域 知识 的 共同 理解 ,确定 
该 领域 内 共同 认可 的 词汇 ,并 从 不 同 层 次 的 形式 化 模式 上 给 出 这 些 词汇 间 
相互 关系 的 明确 定义 。 

领域 本 体 是 一 个 五 元 组 , 记 作 O={C,A,R,TI,M}。 其 中 ,C 是 概念 集 ， 
指 特定 领域 中 属于 概念 的 集合 ; A 表示 属性 集 ,主要 用 来 表现 概念 自身 的 特 
征 ; R 是 关系 , 指 领域 中 概念 间 的 相互 作用 ; I 为 实例 集 ; M 是 实例 与 概念 
之 间 的 映射 关系 集合 ,该 映射 集 将 每 个 实例 对 应 到 其 所 属 的 概念 下 。 

领域 本 体 是 建立 在 领域 概念 及 概念 之 间 抽象 关系 的 基础 上 ,不 依赖 于 
具体 的 软件 存在 ,从 而 可 以 成 为 面向 该 领域 的 通用 模型 ,因此 具有 极 高 的 可 
重用 性 ,方便 在 其 之 上 进行 开发 和 应 用 。 

领域 本 体 的 构建 方法 主要 有 以 下 几 种 : 


1. TOVE 法 


TOVE 法 ,又 称 Gruinger&.Fox 评价 法 。TOVE 是 指 多 伦 多 虚拟 企业 
(Toronto VirtualEnterprise) ,专用 于 构建 TOVE 本 体 (关于 企业 建 模 过 程 
本 体 ) (Fox 1995,Gruninger 1996) ,由 多 伦 多 大 学 企业 集成 实验 室 (Enterprise 
Integ ration Lab) 研 制 ,使 用 一 阶 谓词 逻辑 进行 集成 。TOVE 本 体 包括 企业 
设计 本 体 、 工 程 本 体 、 计 划 本 体 和 服务 本 体 。TOVE 流程 见 图 6-3. 


设计 动机 非 形式 化 的 系统 能 力 问 题 术语 的 形式 化 


| 


完备 知识 本 体 | |] 将 规则 形式 化 为 公理 I—-| 形式 化 的 系统 能 力 问题 


图 6-3 TOVE 流程 图 


2. METHONTOLOGY 法 


METHONTOLOGY 1X0? ,专用 于 构建 化 学 本 体 ( 有 关 化 学 元 素 周 期 表 
的 本 体 ) (Fernandez 等 1996 ,Fernandez 等 1999) 。 该 方法 已 被 马德里 大 学 
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理工 分 校 人 工 智能 图 书馆 采用 。 它 的 流程 包括 : 四 管理 阶段 : 这 一 阶段 的 
系统 规划 包括 任务 的 进展 情况 .需要 的 资源 `. 如 何 保 证 质量 等 问题 。 四 开发 
阶段 : 分 为 规范 说 明 、 概 念 化 .形式 化 .执行 以 及 维护 五 个 步 又。 加 维护 阶 
Bt. 包括 知识 获取 、 系 统 集成 .评价 文档 说 明 .配置 管理 五 个 步骤。 目前 ,用 
这 种 方法 开发 的 本 体 有 : (Onto) 2Agent, 它 是 基于 本 体 的 Web 代理 ,是 使 
用 参考 本 体 作为 知识 源 ,在 一 定 的 约束 条 件 下 进行 新 知识 获取 的 工具 ; 化 学 
本 体 (Chemical Ontology) ,是 基于 本 体 的 化 学 教育 代理 ,允许 学 生 在 学 习 的 
基础 上 自 测 本 身 在 该 专业 领域 内 所 达到 的 水 平 。 


3. 骨架 法 


骨架 法 (Mike Uscholddede & King. Usc95), 又 称 ENTERPRISE 法 ， 
专门 用 来 构建 企业 本 体 (ENTERPRISE ontology) ,是 有 关 企 业 建 模 过 程 的 
本 体 (Stader, 1996)。 建 立 在 企业 本 体 基础 之 上 ,是 相关 商业 企业 间 术 语 和 
定义 的 集合 ,该 方法 只 提供 开发 本 体 的 指导 方针 。 目 前 企业 本 体 项 目 由 爱 
丁 堡 大 学 人 工 智 能 研究 所 (AlIAI-the Artificial Intelligence Applications 
Institute) 及 合作 伙伴 -IBM, Lloyd’ s. Register. Logica UK Limited 和 
Unilever 共同 承担 。 骨 架 法 流程 见 图 6-4. 


确定 知识 本 体 的 
应 用 ”目的 和 范围 知识 本 体 分 析 广 一 盖 | 知识 本 体 表 志 


构建 本 体 知识 本 体 评价 


图 6-4 上 骨架 法 流程 图 


4. KACTUS 工程 法 


KACTUS 工程 法 (KAC96) 是 基于 KACTUS 项 目 而 产生 的 ,KACTUS 
是 指 关 于 多 用 途 复 杂技 术 系 统 的 知识 建 模 工程 (Modeling Knowledge about 
Complex Technical Systems for Multiple Use) ,是 欧洲 ESPR 开 框 架 下 的 研 
发 项 目 之 一 属于 ESPR 开 - 焉 所 支持 的 项 目 。 支 持 EXPRESS 和 Ontolingua 
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语言 。 巴 应 用 说 明 : 提供 应 用 的 上 下 文 和 应 用 模型 所 需 的 组 件 ; O HORAE 
体 范畴 的 初步 设计 : 搜索 已 存在 的 本 体 ,进行 提炼 扩充; @ 本 体 的 构造 : 用 
最 小 关联 原则 来 确保 模型 既 相 互 依赖 ,又 尽 可 能 一 致 ,以 达到 最 大 限度 的 系 
统 同 构 。 


5. 七 步 法 


斯 坦 福 大 学 医学 院 开发 的 七 步 法 ,主要 用 于 领域 本 体 的 构建 。 七 个 步 
又 分 别 是 : 加 确定 本 体 的 专业 领域 和 范畴 ; 加 考查 复 用 现 有 本 体 的 可 能 性 ; 
@ 列 出 本 体 中 的 重要 术语 ; @ 定 义 类 和 类 的 等 级 体系 ; @ 定 义 类 的 属性 ; 
@ 定 义 属性 的 分 面 ; @ 创 建 实例 。 

表 6-1 对 七 种 本 体 构 建 方法 进行 对 比 , 均 允许 在 系统 间 进 行 操作 ， 
都 提供 知识 共享 和 复 用 的 机 制 。 方 法 体系 的 成 熟 度 依次 为 : 七 步 法 一 
METHONTOLOGY 法 一 TOVE 法 一 骨架 法 一 KACTUS iX. 


表 6-1 本 体 构 建 方法 比较 


项 目 工程 管理 i 设计 | 执行 开发 后 期 
TOVE 法 没有 有 有 有 | 没有 
va | 不 全 ,没有 建 . .| 不 全 ,没有 操作 支 
M ETHONTOLOGY 法 立 工 程 环境 有 有 有 持 . 维 护 和 训练 阶段 
骨架 法 没有 有 | 没有 | 有 | 没有 
KACTUS 法 没有 有 | 有 | 有 | 没有 
T3 不 全 ,没有 建 < 
七 步 法 立 工程 环境 有 有 | 不 全 


以 上 几 种 方法 均 允 许 在 系统 间 进 行 操 作 , 都 提供 知识 共享 和 复 用 的 机 
制 。 方 法 体系 的 成 熟 度 依次 为 : 七 步 法 证 METHONTOLOGY 法 之 TOVE 
法 之 骨架 法 >>KACTUS 法 。 


6.2.1 形式 背景 抽取 


本 体 的 应 用 .目的 和 范围 , 均 是 形式 背景 的 核心 内 容 , 从 某 一 领域 的 形 
式 背 景 中 抽取 核心 概念 是 本 体 构 建 最 关键 的 一 步 。 领 域 概念 是 在 特定 领域 
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内 具有 语义 的 词 或 短语 的 集合 。 从 某 种 意义 上 讲 , 领 域 概念 是 领域 知识 在 
文本 中 的 外 在 表现 。 领 域 概念 的 获取 就 是 从 领域 文本 集合 中 抽取 最 多 能 够 
代表 该 领域 的 概念 集合 ,这 个 过 程 包括 从 领域 文本 中 抽取 术语 集合 ,词性 规 
范 ( 同 义 词 处 理 ) 以 及 领域 概念 的 筛选 和 确定 。 

一 个 能 代表 领域 知识 的 单词 或 短语 可 以 由 术语 自动 提取 出 ,但 是 ,这 仅 
仅 是 本 体 概 念 的 候选 ,这 些 候选 包括 了 以 下 几 种 情况 : 可 能 是 概念 ,可 能 不 
是 概念 ,也 可 能 是 概念 的 一 个 片段 ,还 有 可 能 是 一 些 在 特定 上 下 文中 出 现时 

会 出 现 的 概念 ,但 在 出 现 的 另外 的 语言 环境 中 却 不 能 称 之 为 概念 。 

一 词 多 义 在 自然 语言 是 相当 普遍 的 现象 。 如 果 直 接 把 术语 当 作 本 体 概 
念 ,同一 个 术语 的 关系 既 可 为 词义 A, 又 可 为 词义 B, 因 此 所 形成 的 概念 语义 
关系 可 能 非常 混乱 。 概 念 具有 一 对 一 的 关系 ,具有 的 是 一 个 确定 意义 ,而 术 
语 可 以 是 一 对 多 的 关系 ,可 能 具有 多 个 意义 ,因此 术语 通常 不 是 概念 。 

一 个 术语 可 以 代表 本 体 概念 ,前 提 是 可 定义 其 : 

CD 内 涵 : 形式 化 定义 该 概念 描述 的 对 象 集 ,例如 :“ 船 舶 是 水 路 交通 工 
具 ”。 这 里 “水 路 交通 工具 ”是 “船舶 的 "内涵, 如 采用 ILP 和 FCA 方法 。 

(2) 外 延 : 该 概念 所 要 阐述 的 是 对 象 集 (实例 ), 即 概念 实例 ,例如 :“ 船 
舶 ”这 一 概念 的 外 延 包 括 货轮 、 渔 船 . 客 轮 , 以 及 其 他 形式 的 船舶 。 

(D 词法 实现 : 多 语种 同义词 与 术语 本 身 ,含有 概念 的 同义词 和 多 语种 
表示 。 

抽取 概念 定义 是 获取 概念 内 涵 的 途径 ,又 可 定义 为 语义 排 歧 , 是 对 于 那 
些 语义 多 于 一 种 的 术语 。 这 个 过 程 可 以 通过 学 习 确 定 它 在 特定 的 环境 下 取 
某 一 个 语义 。 这 也 可 表示 在 概念 学 习 的 基础 上 ,各 个 术语 都 具有 明确 的 定 
义 ( 含 义 )。 此 时 作为 概念 的 术语 才 与 其 定义 吻合 ,在 此 基础 上 建立 的 关系 
也 进一步 合理 。 

SSI(structure semantic interconnection) 是 现 阶段 语义 排 歧 比较 有 效 
的 ,经 典 的 算法 。 具 体 表述 为 对 于 一 个 术语 集 Ts ,首先 可 以 通过 WordNet 
发 现 它们 中 的 独 义 词 ,并 将 其 从 Ts 移入 集合 I(I 表示 已 排 歧 的 术语 集合 ) 。 
然后 对 于 Ts.. 中 的 每 一 个 术语 t, 分 别 取 它 在 WordNet 中 的 每 个 语义 Si. Rl 
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用 WordNet 定义 的 各 种 关系 ,在 一 定 深度 范围 内 人 遍历 术语 1 在 语义 Si 时 和 
I 中 各 个 术语 的 联系 ,并 把 联系 程度 按照 一 定 方法 量化 。 在 术语 c 的 各 个 语 
义 都 计算 完成 后 , 取 与 1 联系 最 紧密 的 语义 。 如 此 循环 ,直至 所 有 术语 都 被 
排 层 或 在 最 近 的 一 次 循环 中 没有 术语 被 排 歧 。 

(4) 实例 抽取 。 

以 语义 分 析 , 概 念 指 的 是 对 象 的 集合 ,本 体 实 例 为 组 成 概念 的 成 员 。 实 
例 表示 概念 的 具体 个 体 ,所 谓 实例 学 习 就 是 在 领域 语 料 集中 识别 出 属于 某 
个 概念 的 个 体 。 本 文 对 实例 抽取 采用 了 两 种 方法 : 一 是 实例 关系 抽取 法 , 另 
一 种 是 模式 匹配 方法 。 基 于 模式 匹配 方法 的 基本 算法 思路 是 首先 定义 一 些 
模式 ,然后 利用 ICT( 中 文 语 料 ) 和 QTag( 英 文 语 料 ) 对 领域 文集 进行 词性 标 
注 , 最 后 应 用 模式 匹配 算法 在 领域 文集 中 寻找 实例 。 

本 体 实例 获取 是 通过 一 定 的 学 习 方法 和 工具 ,利用 已 知 本 体 库 从 Web 
语料库 或 其 他 知识 源 中 ,以 自动 或 半自动 地 方式 发 现 领域 概念 实例 和 属性 
关系 实例 。 它 可 以 用 四 元 组 (R,O,A,D 描 述 ,其 中 : R 为 Web 语料库 或 其 他 
知识 源 ，O 为 领域 本 体 库 ,O 中 至 少 含有 概念 集合 C 和 概念 的 属性 关系 集合 
P; A 为 本 体 实例 获取 算法 ; I 为 领域 概念 实例 和 属性 关系 实例 的 学 习 结果 。 

这 里 的 模式 是 指 那些 以 字符 序列 形式 出 现 , 且 不 能 将 这 些 字符 分 成 相 
互 独立 的 关键 字 的 一 种 数据 。 模 式 处 理 不 但 包含 了 数据 插入 、 搜 索 、 删 除 、 
替换 等 基本 运算 外 ,而 且 还 有 其 特有 的 字符 串 查 找 和 运算 一 模式 匹配 : 给 定 
一 个 长 度 为 n 的 字符 串 ( 通 常 称 为 正文 ;Text 二 to…t, 以 及 另 一 个 长 度 为 
m Gn on H 4E E GR 7E PC BE Pattern = pi pz *** p, 3X HL t (OL in) BI 
p; Qj m EFRR P I] S8 1 EOR A HR HIRR Pattern 在 正文 中 首次 
出 现 的 起 始 位 置 ( 即 下 标 )。 一 旦 在 正文 中 找到 一 个 模式 , 则 可 认为 它 发 生 
一 次 匹配 。 

朴素 模式 匹配 算法 是 比较 普遍 的 模式 匹配 应 用 。 其 原理 是 将 匹配 问 
题 转化 为 以 模式 为 关键 字 查找 问题 ,具体 是 将 长 度 为 于 的 正文 工 划分 为 
n 一 m 十 1 个 长 度 为 m 的 子 字符 串 ( 简 称 字 串 ) ,检查 比较 每 个 这 样 的 子 串 是 
否 与 长 度 为 m 的 模式 P 相 匹配 。 
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本 阶段 需要 明确 领域 本 体 构 建 的 目的 ,范围 用 途 和 使 用 者 。 从 表面 上 
看 ,领域 本 体 的 构建 是 为 机 器 服务 的 ,其 最 终 目的 还 是 为 用 户 提供 信息 服 
务 。 采 用 和 软件 开发 过 程 类 似 的 办 法 ,在 本 体 构建 的 初期 ,首先 了 解 其 应 用 
的 具体 背景 和 需求 。 考 虑 到 领域 知识 的 深度 和 广度 以 及 关系 的 复杂 程度 ， 
所 以 采用 本 体 时 尽 可 能 覆盖 领域 内 的 所 有 知识 。 但 一 味 地 扩大 本 体 的 范围 
会 造成 工程 的 复杂 度 和 成 本 的 剧 增 , 甚 至 会 造成 工程 的 失败 ,这 是 需要 注意 
的 。 根 据 领域 专家 提供 的 知识 和 实际 需求 控制 知识 范围 , 尽 可 能 使 本 体 范 
围 在 较 小 的 情况 下 满足 要 求 。 本 体 开 发 者 在 实践 中 肩负 完成 形式 化 知识 ， 
使 编码 成 为 计算 机 可 处 理 语言 的 任务 ,所 以 本 体 开 发 者 需 了 解 本 领域 的 基 
本 知识 ,包括 特点 、 规 则 以 及 技术 方法 ,以 此 作为 与 领域 专家 交流 合作 的 
基础 。 


6.2.2 领域 属性 概念 定义 


在 建立 起 的 本 体 框架 中 ,概念 需要 被 精确 定义 , 尽 可 能 准确 而 精简 的 表 
达 出 领域 的 知识 。 除 了 概念 ,还 要 定义 概念 之 间 的 关系 。 这 些 关系 不 仅仅 
涉及 同 工 作 领 域 的 概念 ,不 同 工 作 领域 的 概念 也 可 以 相关 ,只 是 这 些 关 系 总 
是 属于 某 一 个 工作 领域 。 在 创建 的 概念 中 ,很 大 部 分 属于 类 ,对 类 及 其 层 
次 .类 的 属性 、 属 性 值 等 要 重点 定义 并 创建 类 中 的 实例 。 


1. 定义 类 及 类 的 层次 


在 创建 的 概念 中 ,很 大 一 部 分 属于 类 .而 对 类 的 层次 的 定义 有 以 下 3 种 
方法 : 自 上 向 下 法 。 先 定义 领域 中 综合 的 ,概括 性 的 概念 ,然后 逐步 细 化 、 
说 明 ; 加 自 下 向 上 法 。 先 定义 具体 的 、 特 殊 的 概念 ,然后 对 这 些 概 念 泛 化 成 
综合 性 的 概念 ; @@ 混 合法 。 混 合 使 用 自 上 向 下 法 与 自 下 向 上 法 , 先 建立 那些 
显而易见 的 概念 ,然后 分 别 向 上 与 向 下 进行 泛 化 与 细 化 。 这 3 种 方法 各 有 利 
商 , 采 用 哪 种 方法 取决 于 开发 人 员 对 领域 认识 的 角度 。 如 果 设 计 人 员 对 该 
领域 有 自 上 向 下 系统 的 认识 ,第 四 种 方法 比较 适合 。 一 般 来 说 ,混合 法 比较 
适合 大 部 分 设计 人 员 。 


156 本 体 建 模 与 语义 Web 知识 发 现 


2. 定义 类 的 属性 


仅仅 通过 类 是 不 足以 确切 地 描述 一 个 领域 的 ,因此 ,一 旦 定义 好 了 类 就 
要 描述 这 个 类 的 内 部 结构 。 已 经 从 步骤 四 中 创建 的 概念 中 选择 了 类 ,大 部 
分 剩 下 的 概念 可 能 成 为 这 些 类 的 属性 ,确定 属性 是 用 来 描述 类 。 在 本 体 模 
型 中 ,属性 往往 具有 以 下 一 些 特征 : 中 本 质 特 征 ,如 颜色 ,运行 速度 ; 四 外 来 
特征 ,如 产地 ,厂商 ; 加 组 成 部 分 ,如 材料 ; 图 个 体 间 关系 。 子 类 继承 父 类 所 
有 的 属性 ,因此 属性 应 当 被 尽 可 能 定义 在 通用 类 中 。 


3. 定义 属性 值 


属性 值 既 可 以 是 一 个 数值 也 可 以 是 一 个 类 。 我 们 将 属性 值 视 为 一 个 
类 , 称 为 属性 类 。 属 性 类 也 有 属性 ,通过 这 些 属 性 来 说 明 取 值 类 型 、 值 个 数 
及 有 关 值 的 其 他 特征 。 


4. 创建 实例 


创建 概念 类 中 的 个 体 实例 ,选择 概念 类 并 创建 该 概念 类 的 实例 。 

使 用 描述 逻辑 表示 领域 共享 语词 库 。 本 体 建 立 者 在 本 体 的 领域 和 范围 
内 进行 概念 化 的 首要 任务 是 建立 领域 共享 语词 库 , 并 收集 所 有 有 用 的 和 洪 
在 有 用 的 领域 概念 及 语义 、 属 性 和 实例 等 。 建 立领 域 共享 语词 库 , 首 先 通过 
收集 领域 信息 充分 了 解 领域 知识 。 信 息 来 源 可 以 包括 专家 书籍、 网络 ,其 
至 是 其 他 的 本 体 。 它 是 对 领域 本 体 的 细 化 过 程 , 叙 词 表 为 共享 语词 库 的 建 
立 提 供 了 必要 的 条 件 。 

共享 语词 库 的 建立 是 根据 叙 词 表 对 每 一 个 涉及 的 分 类 领域 进行 语义 描 
述 轨 。 本 体 建立 者 应 当 写 人 下 列 词典 项 : 

1 class name; 2 synonym o f the class; 

3 properties of the class; 4 relations o f the class, 

例如 : 农产品 原料 的 类 名 ; 该 类 农产品 原料 的 不 同 叫 法 ; 该 类 农产品 原 
料 的 属性 : 定购 数量 , 即 两 企业 间 交 易 该 类 型 原料 的 数量 ; 价格 , 即 两 企业 
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间 的 交易 价格 等 等 ; 农产品 原料 的 部 分 重要 的 关系 : 所 属 类 别 , 即 描述 了 该 
原料 所 属 的 类 别 以 及 和 其 他 原料 之 间 的 关系 ; 原料 供应 企业 , 即 描述 了 该 原 
料 是 由 那个 企业 所 生产 的 等 等 。 

用 OWL 描述 本 体 ,在 描述 逻辑 的 基础 上 建立 概念 分 类 层次 ,然后 定义 
类 的 属性 和 创建 类 的 实例 。 由 于 要 涉及 RDF 的 概念 , 先 简 述 几 个 概念 : 
RDF 的 主要 元 素 是 根 元 素 、 二 RDF 之 ,以 及 可 识别 资源 的 二 Description 之 元 
Ko —rdf RDF> Æ RDF 文档 的 根 元 素 , 定 义 了 一 份 XML 文档 将 成 为 一 份 
RDF 文档 。 此 外 提 及 了 RDF 名 称 空间 (namespace) ,一 rdf Description 76 
素 通 过 about 属性 识别 资源 。 


6.2.3 本 体 建 模 工具 Protégé 


手工 构建 本 体 是 一 个 耗 时 .昂贵 高度 技巧 化 .非常 复杂 的 过 程 ,通常 需 
要 周而复始 地 反复 修改 编辑 。 经 过 近 十 几 年 发 展 ,本 体 编辑 工具 已 经 比较 
成 熟 。 在 这 个 发 展 过 程 中 因 本 体 描述 语言 的 不 同 出 现 两 类 本 体 开发 工具 。 

第 一 类 是 基于 人 工 智 能 (AI) 的 特定 描述 语言 的 本 体 开发 工具 ,包括 
Ontolingua (基于 Ontolingua 语言 ), OntoSaurus (基于 LOOM 语言 )， 
WebOnto (基于 OCLM 语言 ) 等 。 

第 二 类 是 不 依赖 于 某 种 特定 描述 语言 的 本 体 构建 开发 工具 ,利用 基于 
组 件 的 结构 进行 功能 的 使 用 与 扩展 ,组 件 的 结构 指 整合 的 开发 环境 或 组 件 的 
集合 ,能 对 基于 Web 的 本 体 描 述 语言 格式 (例如 ,XML,.RDF(S),DAML 十 
OIL 语言 ) 进 行 导 入 /导出 操作 ,包括 OntoEdit, Protege 系列 等 。 

不 同 的 本 体 开 发 工具 应 用 于 不 同 的 专业 领域 。 在 这 些 工 具 中 ,被 使 用 
最 广泛 ,最 受 关注 的 是 斯 坦 福 大 学 医学 情报 研究 组 开发 的 本 体 构建 编辑 工 
具 Protégé(http://protege. Stanford. edu)。 该 工具 采用 Java 编写 ,可 
以 免费 下 载 ,其 界面 与 普通 的 Windows 应 用 程序 风格 一 致 ,由 于 其 开放 性 和 
兼容 性 备 受 瞩目 ,成 为 目前 本 体 编辑 的 首选 工具 。 

Protégé 有 很 多 其 他 编辑 工具 所 不 具备 的 优点 : 

(D 是 一 个 开放 资源 ,允许 用 户 二 次 开发 ,目前 拥有 最 多 的 注册 用 户 ; 
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@ 不 断 有 新 版 本 推出 ,不 断 增加 新 功能 ; 

© 系统 的 可 扩展 性 好 ,支持 下 载 安装 或 者 自行 开发 插件 ,拓展 Protégé 
的 功能 ; 

CD 能 够 以 多 种 方式 存储 本 体 , 包 括 多 种 数据 库 格式 和 纯 文本 格式 ,可 以 
适应 不 同 需要 ， 

C) 支持 多 种 本 体 表示 语言 输出 ,包括 XML、FRFS.OWL 等 ; 

© 界面 简单 友好 ,易于 用 户 学 习 和 操作 ; 

CD 拥有 众多 的 可 视 化 插件 供用 户 选择 ,概念 关系 一 目 了 然 ; 

支持 中 文 编码 。 

当然 ,Protégé 在 设计 上 也 存在 着 一 定 程度 的 不 足 : 

(D 一 次 只 能 打开 一 个 本 体 : 有 些 大 型 本 体 的 编辑 需要 参考 和 引用 已 经 
存在 的 本 体 ,这 样 的 方式 会 影响 大 型 本 体 的 工作 效率 ; 

@ 不 支持 协同 开发 : 目前 的 Protégé 只 有 客户 端 , 没 有 服务 器 ,不 支持 
协同 开发 ,尤其 是 大 型 本 体 的 开发 ,需要 多 人 的 合作 ,大 大 影响 本 体 的 编辑 
效率 ; 

© 不 能 进行 批量 处 理 : 在 输入 实例 的 过 程 中 ,不 能 以 文本 的 形式 将 同 
类 型 的 内 容 一 次 性 导入 ,输入 比较 繁琐 ， 

@ 运行 速度 比较 缓慢 ,编辑 效率 不 高 ,启动 需要 占用 大 量 的 内 存 资源 ; 

C) 部 分 图 形 化 显示 工具 不 支持 中 文本 体 显示 ,如 OWLViz。 

在 Protege 本 体 编辑 器 中 ,本 体 结构 以 属性 的 层次 目标 结构 显示 ,用 户 
可 以 通过 点 击 相 应 的 项 目 增 加 或 编辑 类 、 子 类 、 属 性 、 实 例 等 ,使 用 户 在 概念 
层次 上 设计 领域 模型 中 ,所 以 本 体 工程 师 不 需要 了 解 具体 的 本 体 表 示 语 言 。 
Protege 支持 多 重 集成 ,并 对 新 数据 进行 一 致 性 检查 ,并 且 具 有 很 强 的 可 扩 
展 性 。 同 时 文件 输出 格式 可 以 定制 .可 以 将 Protege 的 内 部 表示 转化 成 多 种 
形式 的 文本 格式 ,包括 : XML,RDF(S) .OIL.DAML,DAMI 二 OIL,OWL 
等 系列 语言 。 具 体 的 操作 方法 如 下 : 

CD 建立 新 的 本 体 项 目 。 运行 Protege4. 1, 选 择 新 建 一 个 本 体 ,根据 提 
示 , 分 别 完成 命名 空间 、 存 放 位 置 以 及 选择 本 体 的 描述 语言 等 操作 。 
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Q 定义 类 及 类 的 层次 。 利 用 Class 标签 ,为 完成 分 析 的 领域 本 体 定 
义 类 及 类 的 层次 。 在 Protege4. 1 中 可 以 对 类 进行 设置 ,如 父 类 、 不 相交 
类 等 。 

@ 设置 类 的 对 象 属性 。 利 用 Object Properties 标签 对 类 间 的 语义 关系 
进行 描述 ,以 及 属性 的 定义 域 (domain) , ffi BE (range) ,增加 对 类 间 语 义 关 系 
的 限制 。 如 把 属性 设置 为 : 

1) 翻转 属性 (Inverse Property) 

如 果 Pl 被 声明 为 P2 的 翻转 属性 ,那么 如 果 X 通过 PI 关联 到 Y ,那么 
Y 通过 Pl 关联 到 X。 如 果 hasChild 是 hasParent 的 翻转 属性 , Deborah 
hasParent Louise, 那 么 我 们 就 能 够 推理 出 Louise hasChild Deborah, 

2) 传递 属性 (TransitiveProperty) 

如 果 (Cz,y) 是 传递 属性 P 的 一 个 实例 ,(y,x) 也 是 传递 属性 P 的 一 个 实 
例 , 那 么 (z,z) 是 传递 属性 P 的 一 个 实例 。 如 果 ancestor 被 声明 为 传递 的 ， 
(CSara,Louise) 是 他 的 一 个 实例 ,(Louise,Deborah) 也 是 他 的 一 个 实例 , 那 我 
们 就 能 够 推理 出 (Sara, Deborah) 是 他 的 一 个 实例 。 

3) 对 称 属性 (SymmetricProperty) 

如 果 (zx,y) 是 对 称 属性 P 的 一 个 实例 ,那么 (y,z) 也 是 它 的 一 个 实例 。 
被 声明 为 对 称 的 属性 不 能 有 任意 的 domin 和 range, Friend 可 以 被 说 成 是 
一 个 对 称 属性 , 如 果 Frank 是 Deborah 的 Friend, 那 我 们 可 以 推断 出 
Deborah 是 Frank 的 Friend, 

4) 为 属性 添加 约 东 (Restrictions) ,包括 : 

(1) allValuesFrom 约束 

该 约束 将 一 个 属性 的 取 值 和 一 个 class 相关 。 也 就 是 说 ,如 果 一 个 class 
的 实例 通过 这 个 属性 和 另外 一 个 individual 相关 .那么 后 一 个 individual W 
能 够 被 认为 是 该 越 是 类 的 一 个 实例 。 

Class Person 有 一 个 属性 hasOffspring ,该 属性 被 约束 在 allValuesFrom 
上 取 值 为 Person 类 。 这 就 是 说 如 果 Person 的 一 个 实例 Louise 通过 属性 
hasOffspring 和 另 一 个 individual Deborah 相关 ,从 这 一 点 我 们 能 推断 出 
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Deborah 是 Person 的 一 个 实例 。 这 种 约束 允许 hasOffspring 属性 被 其 他 
class 使 用 ,例如 被 class Cat 使 用 ,从 而 做 出 相应 的 约束 。 

(2) some ValuesFrom 约束 

和 上 面 类 似 ,该 约束 也 将 一 个 属性 的 取 值 和 一 个 class 相关 。 只 不 过 此 
时 要 求 该 属性 的 取 值 至 少 有 一 个 是 该 class 类 型 的 。 

5) 设置 数据 属性 。 利 用 Date Properties 标签 来 描述 某 类 本 身 所 具有 的 
特性 ,如 和 的 性 别 ,年 龄 等 ,并 对 取 值 类 型 进行 定义 ,如 定义 日 期 的 取 值 范围 
为 时 间 类 型 的 值 。 

6) 向 类 添加 实例 。 利 用 Individuals 标签 为 已 经 设置 好 的 类 添加 实例 ， 
赋予 相关 属性 的 值 。 

在 完成 上 述 步 又 之 后 ,可 以 调用 集成 于 Protege 中 的 相关 推理 机 ,进行 
基于 公理 的 推理 ,系统 会 自动 提示 非法 的 字符 及 层次 .限制 等 关系 ,检验 本 
体 的 逻辑 结构 ,便于 进一步 修改 完善 本 体 。 


6.3 XML 数据 到 OWL 本 体 的 转换 


XML 是 互联 网 中 的 W3C 标准 文档 格式 ,用 于 写 和 交换 信息 ,目前 
XML 在 电子 商务 中 一 直 是 普遍 接受 的 数据 交换 形式 。XML 覆盖 了 语法 
层 ,但 是 缺乏 对 概念 化 共享 的 有 效 支持 。 幸 运 的 是 ,OWL 是 一 个 W3C 标准 
模式 ,用 于 描述 语义 和 对 互联 网 上 的 信息 推理 ,对 语义 协调 的 技术 有 着 很 好 
的 支持 。OWL 通过 使 用 类 、 属 性 和 实例 在 分 布 式 互联 网 的 环境 中 支持 领域 
知识 的 表示 。 然 而 ,OWL 和 XML 虽然 很 相似 ,但 毕竟 是 基于 两 种 不 同 的 表 
现形 式 , 因 而 应 用 时 需要 互相 转换 。 

对 XML 数据 ,元 数据 是 XML Schema, 因 为 它 定义 了 XML 文档 的 标签 
和 结构 ,描述 了 XML 实例 文档 中 数据 的 类 型 等 信息 ,其 语义 和 数据 是 在 一 
起 的 ,因此 ,在 从 XML 到 OWL 的 转换 过 程 中 ,一 个 语法 正确 的 XML 
Schema 的 存在 可 以 优化 对 XML 文档 的 操作 。 但 最 新 的 研究 表明 ,实际 应 
用 中 的 许多 XML 文档 要 么 没有 相应 的 XML Schema 的 存在 ,要 么 基于 一 个 
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语法 错误 的 XML Schema。 为 了 获得 更 为 完备 的 OWL 文档 ,我 们 首先 需要 
从 给 定 的 XML 文档 中 自动 生成 一 个 XML Schema. 

对 于 XML Schema 的 提取 的 研究 大 多 利用 了 DTD 的 内 容 模型 生成 方 
法 。 一 些 具有 XML Schema 提取 功能 的 软件 或 工具 ,如 Trang、Atoval 
XMLSpy Stylus Studio, 其 生成 的 XML Schema 在 表达 能 力 上 都 是 等 同 于 
DTD 的 。 这 里 介绍 文献 [5] 提 供 的 Schema 挖掘 算法 通过 语 境 化 能 力 来 获 
取 上 下 文 相 关 性 的 相关 信息 ,实验 表明 ,与 同类 方法 相 比 ,此 算法 具有 更 好 
的 可 扩展 性 和 表达 能 力 。 在 接 下 来 的 部 分 将 介绍 从 给 定 的 XML 样本 集中 
获取 该 样本 集 的 XML Schema 的 推理 算法 回 。 


6.3.1 相关 定义 
在 介绍 算法 前 , 先 对 相关 定义 做 一 个 简单 介绍 。 
1. XML 片段 


对 我 们 来 说 ,一 个 XML Hr BEA — 4 AI al f1—/al7 w-an- fn—/an-- 
形式 的 元 素 队列 (可 能 为 空 ) ,其 中 al,… ,an 是 元 素 的 名 称 ,f1,… ,fn 是 XML 
片段 本 身 。 特 别 的 ,忽略 属性 (因为 他 们 可 以 直接 添加 上 去 ) 和 数据 的 值 。 

通常 将 二 a> 志 /a> 简 写 为 <a/ 之 。 此 外 ,假如 f 是 一 个 XML 片段 ,用 
path(f) 来 表示 从 工 的 根 节点 开始 的 所 有 的 标签 路 径 集 。 以 图 6-5 所 示 的 
XML 片段 为 例 : path (f) 路 径 包 括 空 路 径 A .路 径 store、 路 径 store order, i 
径 store stock, ff f$ store order customer 等 。 我 们 用 strings < f. pp% X 
zs XML 片段 f 的 一 级 目录 下 的 所 有 的 元 素 名 字 字 符 串 的 集合 。 仍 然 以 
图 6-5 所 示 的 XML 片段 为 例 : 

strings (f.A) — {store} .strings(f. store) — (order order stock) ,strings 
(f. store order) = (customer item item.customer item, M XML 片段 图 6-5 
中 的 第 一 个 orde: 元 素 得 到 元 素 名 字 字 符 串 customer item item, MBA 
order 元 素 得 到 名 字 字 符 串 customer item。 对 于 以 叶子 节点 结束 的 路 径 如 


store order customer name.strings < (f. p) =å. 
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<store> 
< order> 
<customer> <name/> < /customer 
<item> <price/> </item> 
<item> <price/> </item> 
</order> 
< order> 
<customer> <name/> < /customer> 
<item> <price/> </ltem> 
</order> 
<stock> 
<item> 
<id/> 
<supplier> <name/> </suplier> 
</ltem> 
</stock> 
</store> 


图 6-5 XML 片段 样 例 


2. XML Schema 定义 


W3C 规范 将 XSD (XML Schemas Definition, XML 结构 定义 ) 定 义 为 
一 个 类 型 定义 的 集合 D, 我 们 从 具体 的 XML 表述 中 抽象 出 的 XSDs 形式 如 
下 所 示 : 


store—>order[order] * , stock[stock] 


它 将 类 型 名 字 通 过 成 对 的 元 素 名 称 a 和 类 型 名 字 t 将 类 型 名 称 映射 到 正 
则 表达 式 a[t]。 直 观 地 说 ,这 种 特殊 的 类 型 定义 将 二 orderfl</order 二 … 
«order fn /order . stock g — /stock JE RAJ XML 片段 规定 为 类 
型 store, "4 n 宇 0 Hf, fl, +, fn 是 类 型 order 的 一 个 XML 片段 ,而 g 是 类 型 
stock 的 一 个 XML 片段 。 任 何 一 个 出 现在 XSD 的 类 型 定义 的 右边 的 类 型 
名 称 必须 在 XSD 中 被 定义 ,任何 一 个 类 型 名 字 只 可 以 被 定义 一 次 。 

尤其 需要 注意 的 是 : W3C 规范 的 “元 素 声明 一 致 性 (Element Declaration 
Consistent) ”要求 在 同一 类 型 定义 中 多 次 出 现 的 相同 元 素 名 字 必 须 类 型 相 
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同 。 因 此 ,类 型 定义 store order[ order] * , stock[ stock] 是 合法 的 ,但 形 如 
person-* (person[ male] 十 person[ female ]) * ,由 于 person 既 在 类 型 male 中 
出 现 ,又 在 类 型 female 中 出 现 ,所 以 它 是 非法 的 。 当 然 , 在 不 同 的 类 型 定义 
中 同一 个 元 素 名 称 可 以 以 不 同类 型 出 现 ( 这 正 是 让 一 个 元 素 的 内 容 模 型 依赖 
它 的 上 下 文 所 产生 的 能 力 ) 。 例 如 ,图 6-6 中 所 示 的 XSD 描述 即 是 对 图 6-5 中 
所 示 的 XML 文档 的 定义 ,需要 注意 的 是 ,order item 和 stock item 分 别 用 
item, 和 item, KITE X. 

由 于 * 元 素 声 明 一 致 性 ”的 约束 ,类 型 t 的 类 型 定义 中 的 每 一 个 元 素 名 字 
a 通过 唯一 的 类 型 T(t，a) 与 类 型 t 相关 联 。 我 们 以 图 6-6 所 示 的 XSD 为 


例 : c(root.store) —store. t(store, order)=order,t(store, stock)=stock, 


tCorder,item) —iteml,c— (iteml,id)=emp,t<(stock,item)=item2。 然 
后 通过 移 除 t 的 定义 中 的 所 有 的 类 型 名 字 , 用 只 包含 元 素 名 字 的 p(t) 来 表示 
XSD 中 的 正则 表达 式 。 则 对 图 6-6 中 的 XSD 有 : p (roof) = store; 
o< (store) —order * , stock; p (order) =customer, item+; p (person) = 
name，email 十 等 。 于 是 ,把 一 个 XSD D 简化 为 一 个 二 元 组 : 四 被 定义 的 类 
WET ORY c. GO EA. o. D order 的 类 型 定义 为 例 ,我 们 用 一 对 a[LT 
Corder, a) ] 来 替换 正则 表达 式 p(order) 二 customer,item 十 中 的 元 素 名 称 a, 
从 而 可 以 轻易 得 到 图 6-6 中 所 示 的 Order 的 正则 表达 式 。 


root-* store| store] 

store-rorder[order] * ,stock[ stock] 

order-*customer[ person ], item[item] * 

person-*name| emp] 

iteml- price emp] 

stock— item [item2]* 

item; > :— id[emp] , supplier[ person ] -- item [item 25 


emp-*A 


图 6-6 图 6-5 中 所 示 XML 文档 的 XSD 描述 


3. 语 境 化 能 力 (Contextual power) 


从 上 面 的 验证 算法 可 以 看 出 ,f EF(D,t) 中 的 任何 元 素 的 内 容 模型 完全 
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由 从 XML 根 节点 到 该 元 素 的 标签 路 径 来 决定 。 只 有 在 当 每 一 个 fi 都 被 
w. r t. Tt((t, aD BER E ULT .£— al f1- /al2 an fn /an 
为 类 型 t RAE fi=<bl>gl</bl>-<bn>gn</bn> H tf—^ gi 都 被 
w.r.t, c(c (t, ai) ,bj) 验 证 通过 后 gi 才 是 类 型 tr。 于 是 这 一 理论 将 引导 到 
另 一 种 验证 方法 ,从 而 形成 我 们 的 推理 算法 的 基础 。 对 于 一 条 路 径 p 一 ab… 
cyr(s，p) >t ÆR t (…rt(s,a) bl),…c) 已 经 被 定义 并 且 等 同 于 to it L 
(r) 是 表示 通过 正则 表达 式 rz 匹 配 过 得 所 有 的 字符 串 的 集合 。 


4. 定位 (locality) 


有 研究 发 现 ,98% 的 XSDs 中 的 某 个 元 素 的 内 容 模型 实际 上 并 不 依赖 于 
从 根 节点 到 该 节点 的 整个 的 标签 路 径 ,而 只 是 依赖 于 这 条 路 径 上 的 最 后 个 
元 素 的 名 称 , 通 常 k 三 3。 这 种 k-local XSDs 的 定义 如 下 : 假设 plk 表示 由 
路 径 p 的 最 后 个 元 素 名 字形 成 的 路 径 ( 如 果 length(p) 三 &, 则 ple p». 
当 plk 二 qlk 时 ,我 们 认为 路 径 p 和 路 径 g 是 k 一 等 价 的 。 特 别 地 , 当 length 
<k 时 ,p 只 与 它 本 身 k 一 等 价 。 


5. 单一 事件 


研究 发 现 ,99% 以 上 的 XSDs 的 正则 表达 式 中 ,每 个 元 素 名 称 都 只 出 现 
最 多 一 次 。 有 定义 : 如 果 一 个 正则 表达 式 中 的 每 一 个 元 素 名 字 在 该 表达 式 
中 最 多 出 现 一 次 ,那么 该 正则 表达 式 是 单一 事件 。 如 果 一 个 XSD 只 包含 单 
一 事件 的 正则 表达 式 ,那么 该 XSD 是 单一 事件 。 

例如 : customer, item* 和 (school+ institute) + 都 是 单一 事件 ,但 是 由 
F id Æ id, (qty 十 id) 中 出 现 了 两 次 , 故 id 和 (qty, id) 不 是 单一 事件 。“ 单 
一 事件 正则 表达 式 ” 为 SORE,“ 单 一 事件 XSD” 被 简称 为 SOXSD。 


6.3.2 Schema 挖掘 算法 


基于 Schema Miner Method 的 Schema 挖掘 算法 是 一 种 启发 式 的 算法 ， 
在 生成 XML Schema 的 过 程 中 主要 关注 两 点 : 元 素 类 型 和 无 序 序列 。 
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外 ,Schema 挖掘 算法 还 可 以 定义 具有 不 同名 字 但 结构 相似 的 相同 类 型 的 元 
素 以 及 类 型 之 间 的 继承 关系 。 

Schema 挖掘 算法 通过 以 下 三 步 生成 给 定 XML 文档 的 Schema: 首先 根 
据 XML 文档 元 素 的 类 型 进行 聚 类 分 析 ; 然后 将 聚 类 中 的 所 有 字符 串 推 导 
出 一 个 有 穷 自动 机 ; 最 后 将 得 到 的 有 穷 状 态 机 转换 为 XML Schema. 


1. RXTE 


XML Schema 语言 是 一 种 基于 类 型 的 语言 , 它 的 每 一 个 元 素 都 必须 有 
一 个 类 型 。Vosta 提出 的 Schema Miner method 主要 侧重 于 推导 出 具有 相 
同名 字 但 结构 不 同 的 不 同类 型 的 元 素 ,该 算法 根据 元 素 的 名 字 进 行 聚 类 , 当 
同名 元 素 具 有 不 同 的 机 构 时 对 这 些 聚 类 进行 拆 分 。 这 里 的 Schema 挖掘 算 
法 在 此 基础 上 增加 了 定义 结构 相似 但 名 字 不 同 的 相同 类 型 的 元 素 的 功能 。 

定义 : 如 果 XML 元 素 的 一 个 集合 Ct 具有 相同 的 XSD 类 型 ,那么 我 们 
称 Ct 为 类 型 T 的 聚 类 。XML TR E 的 字符 串 是 E 的 子 元 素 按 特定 顺序 排 
列 的 一 个 名 称 字符 串 。 类 型 串 St 是 指 所 有 的 EE Ct 的 字符 串 集 。 

算法 6-1 的 思想 如 下 : 首先 根据 元 素 的 语 境 对 元 素 进 行 聚 类 , 由 于 
XML Schema 不 允许 相同 语 境 中 的 同名 元 素 类 型 不 同 ,因此 ,同名 而 且 绝对 
路 径 相 同 的 元 素 将 具有 相同 的 类 型 。 在 元 素 根据 其 语 境 进行 聚 类 后 ,算法 
将 判断 不 同 的 聚 类 是 否 足 够 相似 ,如 果 两 个 聚 类 足够 相似 , 那 这 两 个 聚 类 将 
被 归并 为 同一 类 型 。 算 法 6-2 中 给 出 的 树 编辑 距离 算法 将 被 用 来 处 理 两 个 
聚 类 之 间 的 相似 度 。 

算法 6-1 类 型 归并 算法 (mergeTypes) 

MA: 一 个 聚 类 集 C 

输出 : 经 过 类 型 归并 后 的 聚 类 集 C 

1: for each pair Ti, Tsin C do 
2: distance : — treeEditDistance( Tl. representant, T2. representant) ; 
3 if distance MAX DISTANCE then 
4: merge(C, Ti, T2); 

5:  endif 
6: end for 
7: return C 
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算法 62 ” 树 编辑 距离 算法 (treeEditDistance) 


输入 : — XML FE Ti, T: 

输出 : 整数 0-100 范围 内 的 树 编辑 距离 

1: distance * —nodeDistance( T, .noot, T; .noot, T,. root, T;.root, true); 
2: return (distance * 100 Y/( T, . size +T; size}; 


如 果 没 有 聚 类 被 归并 , 则 需要 做 n^ /2 V EC. Hor n ERRE TFR 
的 个 数 。 经 过 归并 后 ,比较 的 次 数 可 能 会 迅速 下 降 。 
算法 6-3 节点 距离 算法 (nodeDistance) 


输入 : nodel, node2, rood，root2 ,布尔 类 型 的 递归 
输出 : nodel 与 rode2 之 间 的 距离 (整数 类 型 ) 
nodesListl :一 SortChildNocdes(zodel); 
nodesList. sortChild Nodes( node2 ); 
distance :一 0 
while nodesList 1 .hasMoreElements AND nodesList2 .hasMoreElements do 
childl—nodesListl .actual ; 
child2 — nodesList2 .actua 1 ; 
if childl :name — —child2 name then 
distance-- — nodeDistance(child 1 ,child2, roodl ,root2 , recursively); 
nodesListl .next; 
nodesList2. next ; 
else if childl. name <child2. name then 
if recursively AND nodel.name = — node2 .name then 
subtreeDistance— subtreeDistance( child 1 ;rood ; root2 ); 
topDistance— to pDistance( child 1 ,node2 , root l ,root2 ); 
distance-- — min( subtreeDistance, topDistance) ; 


else 
distance-d- —childl. size; 
end if 
nodesListl .next ; 
else 
if recursively AND nodel.name = = node? .name then 
subtreeDistance subtreeDistance( child2 ; root2 ; roort ); 
topDistance— topDistance( child 2 , nodel, root2, rootl); 
distancet — min( subtreeDistance, topDistance) ; 


else 


distancet — child2 .size; 


end if. 
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算法 6-4 子 树 距离 算法 (subtreeDistance) 


168 本 体 建 模 与 语义 Web 知识 发 现 


算法 6-5 ”顶部 距离 算法 (topDistance) 


输入 : 要 搜索 的 子 树 开始 搜索 的 节点 rood 子 树 的 根 , root2 FHR HIR 
输出 : a minimum distance for the recurse 

1: elementsList := findInTopPath(child, node, root2); 

2: for EACH element IN elementsList do 

3: min * —min( min, nodeDistance(child, element, rood, root2, false)); 
: end for 


: return min; 


n A 


2. 类 型 的 继承 机 制 


Schema 挖掘 算法 将 类 型 的 继承 机 制 置 于 类 型 归并 阶段 的 后 面 , 通 过 对 
类 与 类 之 间 的 比较 ,Schema 挖掘 算法 可 以 推出 子 类 与 超 类 的 关系 。 


3. Schema 的 生成 


在 聚 类 分 析 并 标记 出 类 与 类 之 间 的 继承 关系 后 ,将 从 元 素 类 型 中 推导 
出 Schemao XML Schema 的 内 容 模 型 。 可 以 通过 一 个 正则 表达 式 或 一 个 与 
之 等 价 的 确定 的 有 穷 自动 机 来 表示 。 在 Schema 挖掘 算法 中 ,内 容 模型 被 表 
示 成 一 个 模式 自动 机 ,这 个 模式 自动 机 是 有 穷 自动 机 的 一 个 特殊 形式 。 因 
此 ,生成 Schema 的 问题 被 转换 为 寻找 可 以 接受 类 型 了 的 字符 串 集 ST 的 模 
式 自动 机 的 问题 。 

定义 : 一 个 模式 自动 机 (Schema automation,SA) 是 一 个 扩展 的 有 限 状 
态 自动 机 。 它 可 以 表示 为 一 个 六 元 组 (5,S,Szr,S0,6,F), 其 中 :5 是 一 个 
输入 字母 表 ( 一 个 有 限 的 , 非 空 的 元 素 名 称 集 ); S 是 一 个 有 限 的 基本 状态 
的 集合 ; Sr 是 一 个 有 限 的 扩展 状态 的 集合 ; S0 是 一 个 初始 状态 ,SOE SU 
Sr; 6 是 状态 转换 函数 .SU Sc x XU a) — SU Sr; 下 是 终 态 集 ,F E 
S US). 

模式 自动 机 作用 与 确定 自动 机 相似 。 它 们 之 间 唯 一 的 区 别 是 : 模式 自 
动机 另外 包含 有 一 个 扩展 状态 集 。 扩 展 状 态 S- 表 示 子 自动 机 SA ,将 接受 部 
分 的 输入 字符 串 。 在 到 达 S; 后 ,SA, 将 对 输入 继续 进行 处 理 。 子 自动 机 将 
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处 理 尽 可 能 多 的 符号 并 将 处 理 结果 返回 给 父 处 理 机 。 每 一 个 扩展 状态 都 有 
一 个 与 之 相对 应 的 帮助 状态 。 帮 助 状态 是 一 个 只 有 一 个 切入 点 的 基本 状 
态 , 它 只 能 从 扩展 状态 来 切入 。 当 子 自 动机 将 处 理 结果 返回 后 ,自动 机 将 根 
据 切 入 点 进入 到 帮助 状态 。 

模式 自动 机 和 有 限 自动 机 一 样 具 有 强 表达 能 力 。 它 可 通过 入 边 转 换 为 
有 限 自 动机 。 扩 展 状 态 只 有 一 个 切入 点 ,这 个 切入 点 将 被 间接 地 过 渡 到 子 
自动 机 的 初始 状态 。 子 自动 机 的 所 要 终 态 都 有 一 个 额外 定 的 切入 点 以 切入 
到 初始 切入 点 的 目标 状态 。 有 限 自动 机 的 处 理 过 程 如 下 所 示 : 如 果 对 当前 
字符 有 一 个 切换 则 进行 切换 ; 如 果 当 前 字符 存在 一 个 切入 点 , 那 就 进入 切入 
点 ; 当 对 当前 字符 既 不 存在 一 个 切换 ,也 不 存在 切入 点 , 则 判断 当前 状态 是 
否 为 终 态 ,如果 是 终 态 则 返回 值 为 真 ,否则 为 假 。 通 过 归并 使 用 入 边 进行 连 
结 的 状态 ,新 创建 的 带 入 边 的 有 限 自动 机 可 以 另外 被 转化 为 没有 入 边 的 有 
限 自动 机 。 

下 面 是 在 自动 机 中 被 表示 出 来 的 几 种 扩展 状态 : 

(1) 继承 状态 : 当 某 个 类 型 是 通过 另外 一 个 类 型 继承 而 来 的 时 候 继承 
状态 将 会 被 用 到 。 其 中 的 超 类 型 是 通过 超 类 自动 机 来 表示 的 。 根 据 规则 ， 
子 类 的 内 容 模型 是 超 类 的 内 容 i 型 和 定义 在 继承 状态 中 的 内 容 模型 的 一 个 
串联 。 继 承 状 态 被 用 来 表示 超 类 自动 机 并 被 子 为 初始 状态 置 于 子 类 自动 机 
中 。 这 种 构造 保证 了 超 类 的 内 容 模型 和 定义 在 其 他 自动 机 的 内 容 模型 之 间 
的 串联 性 。 

(2) 序列 状态 : 排列 状态 被 用 来 表示 XML Schema 中 的 all 原子 类 型 。 

G) 群 组 状态 : 群 组 状态 表示 的 是 一 个 任意 的 自动 机 。 和 群 组 状态 被 用 
来 表示 group 工 子 类 型 ,group 原子 类 型 是 对 全 局 定义 原子 类 型 的 一 个 引 
用 。 这 种 状态 允许 自动 机 在 多 个 地 方 重用 自动 机 架构 ,从 而 减少 被 定义 的 
状态 的 数量 。 


4. SA 构造 器 


在 得 到 类 型 聚 类 Ct 后 ,需要 为 给 定 的 输入 串 St 构造 一 个 Schema 自动 
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机 。 通 过 算法 6-6 生成 模式 自动 机 ,该 自动 机 通过 一 个 类 型 来 进行 初始 
化 。 如 果 工 是 一 个 扩展 状态 ,那么 它 的 初 态 将 被 创建 为 一 个 初始 状态 并 为 
之 添加 一 个 辅助 状态 ,然后 所 有 的 输入 字符 串 被 添加 到 模式 自动 机 。 算 法 
中 的 nextState 方法 将 为 所 有 的 字 串 找到 合适 的 转换 。 这 里 假设 扩展 状态 
的 字符 串 可 以 被 超 类 自动 机 接受 ,如 果 某 字符 串 不 能 被 接受 ,那么 从 该 字符 
串 生 成 模式 自动 机 将 没有 扩展 状态 。 

算法 中 应 用 了 一 个 优化 方法 , 即 当 输 入 字符 串 中 包含 了 一 个 长 度 大 于 
用 户 自 定义 的 固定 值 REPETITION 的 序列 时 ,将 自动 创建 一 个 多 重 循环 。 
该 优化 方法 置 于 模式 自动 机 构造 器 中 , 它 可 以 显著 地 减少 模式 自动 机 的 
数量 。 

算法 6-6 Schema 自动 机 生成 算法 (createSchemaAutomation) 


输入 : 用 于 创建 Schema 自动 机 的 类 型 T 
输出 : Schema 自动 机 
schemaAutomaton=newSchemaAutomaton( ); 
if T. isExtended then 
schema Automaton.. initia lState— extensionState( T. parent) ; 
hel perState— state( ); 
schemaAutomaton.. initialstate. createLambda Transition To(hel perState) ; 
else 
schema Automaton.. initia lState— state( ); 
end if. 
for all string IN T. inputStrings do 
actualState— schemaAutomaton.. initialState; 
while string has more letters do 
letter — string. next; 
if string has repetition of letter then 
actualState. createLoo pFor( letter) ; 
else 
nextState—actualState. nextState( string) ; 
if nextState — — null then 
nextState- state( ) ; 
actualState. create TransitionTo(nextState, letter); 
end if 


actualState— neztState; 
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end if. 
end while actualState: final —true; 
end for 


return schemaAutomaton 


XML Schema 的 生成 过 程 如 下 : 

在 模式 自动 机 创建 完成 后 ,把 模式 自动 机 转化 为 XML Schema 的 内 容 
模型 定义 。 由 于 所 有 的 原子 类 型 的 内 容 模型 可 以 被 表示 为 一 个 带 操作 符 & 
的 正则 表达 式 。 因 此 ,将 模式 自动 机 转化 为 XML Schema 内 容 模型 的 过 程 
等 同 为 将 FSA 转化 到 一 个 正则 表达 式 的 过 程 。 算 法 6-7 给 出 了 从 模式 自动 
机 到 XML Schema 的 内 容 模型 的 转化 过 程 。 首 先 ,所 有 的 终 态 将 通过 一 
入 边 连接 一 个 超 终 态 ,然后 除 初 态 和 超 终 态 之 外 的 所 有 状态 都 将 被 一 
示 该 状态 的 所 有 后 继 结 点 循环 结 点 和 前 驱 结 点 的 新 节点 取代 。 

算法 6-7 正则 表达 式 生 成 算法 (SAtoregex) 


输入 : Schema 自动 机 A 
输出 : 经 计算 后 的 正则 表达 式 
superFinalState— state( ) 
for all state IN A. finalStates do 
state. createLambda Transition To( su perFina lState) ; 
end for 
while A: states. size >2 do 
state— A. getLowestWeight() ; 
state. colla pseParallel Transitions( ) ; 
loop state. getLoop 
for all pair of backTransition and transition do 
regex— createRegexFor(back Transition, loop, transition) 
A. add Transition( back Transition. from, regex, transition. to) 
end for 
state :removeAllTransitions( ) ; 
A. removeState( state ) 
end while 
A. initialState:colla psePara llelTransitions) ; 
loop=A. initialState. getLoop 
transition—A : initia State. get TransitionToSuperF ina lState( ) ; 


return createRegexFor(loop, transition) ; 
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6.3.3 ”生成 OWL 模型 


XML 只 能 提供 用 户 一 个 可 以 被 应 用 自动 读 取 的 格式 ,而 不 能 进一步 表 
示 数 据 的 语义 。 尽 管 XML 的 灵活 性 使 用 户 能 够 通过 自 定义 的 标签 来 快速 、 
便捷 的 描述 任意 的 内 容 , 但 计算 机 并 不 能 理解 这 些 标记 的 含义 。 虽 然 XML 
允许 用 户 通过 XML Schema 来 定义 这 些 标记 的 集合 ,同时 XML Schema 也 
为 XML 文档 提供 了 若干 约束 机 制 以 限定 XML 文档 中 的 标记 及 这 些 标记 之 
间 的 结构 关系 ,但 XML Schema 的 语义 仍然 是 隐 含 的 。XML Schema 的 元 
素 的 含义 ,要 么 由 用 户 根 据 元 素 的 名 称 ( 根 据 自 然 语言 描述 ) 去 推断 ,要 么 通 
过 另外 的 文档 来 进行 描述 ,XML Schema 并 不 能 对 其 所 隐 含 的 语义 给 出 任 
何 解释 。 

Semantic Web 用 本 体 来 描述 领域 知识 的 重要 概念 及 各 概念 之 间 的 关 
系 。 在 层次 化 的 语义 网 体系 结构 中 ,本 体 层 主要 用 于 提供 语义 支持 ,因此 本 
体 的 构建 是 实现 语义 网 的 关键 所 在 。 本 体 是 用 来 描述 某 个 领域 (领域 本 体 ) 
甚至 更 广 范围 (通用 本 体 ) 内 的 概念 及 概念 之 间 的 相互 联系 ,使 得 这 些 概念 
和 联系 在 共享 范围 内 有 着 明确 的 唯一 的 定义 ,以 达成 一 种 共识 ,从 而 使 得 人 
和 计算 机 之 间 可 以 进行 交流 。 通 过 由 本 体 描述 的 语义 文档 ,使 得 计算 机 可 
以 理解 和 自动 处 理 文档 。 

但 是 ,本 体 的 建设 是 一 项 庞大 的 工程 ,存在 大 量 重复 性 的 工作 ,这 些 工 
作 需 要 领域 专家 和 知识 工程 师 的 参与 ,因此 ,从 零 开 始 为 每 类 专业 领域 建 
立 本 体 并 不 是 最 适合 的 方法 。 最 切实 际 、 经 济 的 方法 是 从 现存 Web 中 的 
信息 资源 中 提取 语义 信息 ,构建 相应 的 本 体 。 因 此 ,从 XML 文档 中 抽取 
隐 含 语义 信息 构建 描述 XML 文档 的 形式 化 语义 描述 的 本 体 , 可 以 将 XML 
描述 的 信息 从 语法 层 提升 到 语义 层 。 本 体 可 以 使 用 多 种 语言 来 进行 描述 ， 
在 这 些 语言 中 ,OWL 因为 其 诸多 的 优点 成 为 W3C 组 织 推荐 的 本 体 描述 
语言 

基于 以 上 原因 , 接 下 来 介绍 XML2OWL 方法 ,以 提取 XML 文档 中 隐 含 
的 语义 信息 ,同时 构建 与 之 相应 的 OWL 本 体 ,由 此 实现 对 XML 隐 式 语义 
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的 形式 化 表达 ,简化 本 体 构建 的 难度 ,拓宽 本 体 构建 的 途径 。 

实现 框架 如 下 : 

图 6-7 给 出 了 XML2OWL 的 架构 图 。 如 果 XML 文档 没有 与 之 相应 
的 XML Schema 存在 ,那么 首先 通过 Schema 挖掘 算法 生成 一 个 对 应 的 
Schema, 


模式 层 模式 转换 语义 层 


XML 模式 


XML 实例 OWL 实例 


源 数据 转换 目标 
图 6-7 XML2OWL 转换 架构 


然后 以 XML Schema 为 输入 ,将 XML Schema 中 的 组 件 映射 到 一 个 
OWL 模型 ,从 而 获取 XML Schema 中 关于 XML 文档 的 结构 、 对 元 素 的 约 
束 等 方面 的 语义 信息 。 同 时 ,OWL 模型 还 定义 了 关于 元 素 之 间 关 系 的 语义 
信息 。 在 这 个 过 程 中 ,映射 机 制 还 将 检查 当前 元 素 是 否 与 前 一 个 元 素 同名 ， 
如 果 两 个 元 素 同名 , 则 对 当前 元 素 进行 重 命名 。 

在 XML Schema 到 OWL 模型 的 映射 完成 之 后 将 实现 从 XML 实例 到 
OWL 实例 的 映射 。 在 这 一 步 系 统 将 对 XML 实例 文档 和 OWL 本 体 模型 进 
行 处 理 , 在 对 XML 实例 文档 进行 遍历 的 过 程 中 ,如 果 XML 实例 文档 中 的 某 
个 元 素 与 OWL 本 体 模型 中 的 某 个 节点 相 匹配 ,XML2OWL 系统 将 执行 
XML 转换 指令 以 生产 一 个 与 XML 数据 相应 的 OWL 实例 。 

整个 映射 的 具体 过 程 ,XML Schema 到 OWL Model 的 转换 : K 6-2 给 
出 了 XML Schema 到 OWL 本 体 模型 的 映射 定义 。 映 射 方法 将 把 XML 
Schema 中 的 每 一 个 节点 和 属性 映射 到 目标 本 体 中 的 类 或 对 象 属性 。 通 过 
映射 所 得 到 的 结果 是 包含 了 XML Schema 的 结构 信息 以 及 其 构造 器 的 语义 
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的 OWL 本 体 模型 。 


表 6-2 XS20WL 转换 模型 概述 


XML Schema 构造 器 OWL 表示 
ComplexType Class 
Simple Datatype Datatype Declaration 
Element (Datatype or Object) Property 
Attribute Datatype Property 
Sequence Unnamed Class-Intersection 
Choice Unnamed Class-Union 
Annotation Comment 


1. 简单 XML Schema 数据 类 型 


OWL 并 不 直接 支持 对 简单 数据 类 型 的 定义 , 它 只 允许 导入 简单 数据 类 
型 。 现 有 的 XML Schema 的 数据 类 型 只 有 在 已 声明 的 情况 下 才 可 以 应 用 于 
OWL 本 体 中 。 所 有 的 简单 XML Schema 数据 类 型 定义 在 “datatypes” XML 
Schema 中 并 为 他 们 生产 一 个 OWL 数据 类 型 声明 。 假 设 st Cname',id， 
body) 是 一 个 XML Schema 的 简单 数据 类 型 ,其 中 body 是 st 定义 的 主体 部 
分 ,id( 可 选 ) 是 其 标识 符 ,name 是 st 的 名 字 。 则 st 将 被 转化 为 : 存储 在 
“datatypes” 中 的 简单 数据 类 型 st' (name',id,body); @ 在 主要 本 体 中 声明 
的 dd (about, is defined by. label) 数 据 类 型 。 

简单 类 型 st 与 st 具有 相同 的 body 和 id,name' 的 命名 规则 如 下 : 如 果 
st 是 一 个 顶层 的 简单 类 型 ,那么 name' 3 name 具有 相同 的 值 ; 如 果 st Ze dx 
套 在 ae XML Schema 结构 中 的 一 个 简单 数据 类 型 (可 能 是 一 个 元 素 , 也 可 能 
是 一 个 属性 ) , 则 name' 将 根据 以 下 情况 来 取 值 : OM st 中 id 非 空 时 name' 
的 值 为 id 的 值 ; @ 当 st 中 id 为 空 时 ,name' 的 值 为 算法 concatenate (ct 
name. ' '. ae name. ' UNType'") 的 返回 值 , 其 中 : (D concatenate (ct_ 
name. ' '，ae_name，' UNType'") 算 法 接受 任意 数量 的 字符 串 作 为 输入 并 
返回 他 们 的 连接 词 ; Oct name 是 包含 ae 的 复杂 类 型 的 名 字 ; @ae_name 
是 代表 ae 的 属性 的 名 字 。 
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数据 类 型 dd 的 声明 包含 的 语义 如 下 : about 数据 类 型 声明 所 引用 的 
标识 符 , 其 格式 是 concatenate Curl. name 0 ,其 中 url Æ “datatypes” XML 
Schema 的 URL ; @is_ defined by 指定 了 数据 类 型 定义 的 位 置 所 在 , 且 其 
值 为 url 的 值 ; Blabel 是 dd 的 标签 ,其 值 为 name' 的 值 。 

以 图 6-8 所 示 的 嵌 套 简单 数据 类 型 为 例 ,复杂 类 型 *al” 中 定义 的 属性 
“a2” 将 被 转化 为 图 6-9 中 所 示 的 顶层 简单 数据 类 型 ,其 OWL 数据 类 型 声明 
如 图 6-10 所 示 。 


xrs:complerType name = 'a 1"> 
s: simpleContent > 
Mrs: extension base = "rs: integer" > 
rs:attribute name = "a2 "> 
< oxsssimpleT y pe 
< xs:restriction base = "rs: string" > 
< /xs:simpleType> 
< /zrs:attribute> 
< }rs:extension> 
</xs:simpleContent > 
</xs:complexType> 


图 6-8 iE f qose 
<simpleType name = 'al a2 UNTtpe" — 
— restriction base = "xs:string:/ > 
—/simpleT y pe 
Fd 6-9 图 6-8 ric EKE rp on hY TE f 91 2d Ds 
— rdís: Datatype rdf:about— " &datatypes;al a2 UNType"— 
—rdífs:isDefinedby rdf: resource— " &-datatypes ; "/> 
<rdfs:label>al_a2_UNType< /rdfs:label> 
/rdfs:Datatype> 
图 6-10 图 6-8 中 简单 数据 类 型 的 OWL 声明 
2. 属性 


XML Schema 属性 (attribute) 用 来 描述 特征 的 简单 类 型 。 在 OWL 构 
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造 器 中 用 来 表示 相应 特征 的 元 素 是 数据 类 型 属性 (datatype property)。 因 
此 ,我 们 将 XML Schema 中 的 属性 转化 为 OWL 中 的 数据 类 型 属性 。 

假设 a (name. aid.type. annot,ct_name,fixed, default) 是 一 个 XML 
Schema 属性 ,其 中 name 是 a 的 名 字 ,aid 是 a 的 标识 符 ,type 是 a 的 类 型 ， 
annot( 可 选 ) 是 a 的 注释 元 素 ,ct_name 是 在 a 被 定义 的 上 下 文中 复杂 XML 
Schema 类 型 c type 的 名 字 ( 当 a 为 顶层 元 素 时 ,ct_name 的 值 为 空 ) fixed 
(可 选 ) 是 a 的 固定 值 ,default( 可 选 ) 是 a 的 默认 值 。 我 们 将 a (name. aid. 
type. annot. ct_ name. fixed. default) 转 化 为 OWL 的 数据 类 型 属性 dp 
(id. range. domain. label. comment) ,其 中 : (Did 是 dp 的 唯一 的 入 rdf: 
ID, 取 值 concatenate(name. '-',type) fft: Orange 是 dp 的 取 值 范围 ,其 取 
值 为 type 的 值 ;， @ domain 是 dp 的 定义 域 , 取 值 为 ct name 的 值 ; 
label 是 dp 的 标签 ,其 值 为 name 的 值 ; @comment 是 dp 的 文字 描述 并 
且 以 annot 的 值 为 自身 的 值 。 如 果 a 的 值 为 空 ,那么 相应 的 dp 的 值 也 为 空 。 
需要 注意 的 是 : 如 果 a 被 指定 为 一 个 固定 值 , 则 表示 在 OWL 类 c 的 定义 中 
有 一 个 c_ type WEAR., 

例如 图 6-8 中 的 “a2” 属 性 将 被 转化 为 如 图 6-11 中 的 OWL 数据 类 型 
属性 。 


owl:DatatypeProperty rdf:ID="a2_al_a2_UNType> 


=rdfs:domain rdf:resource="#al"/> 
<rdfs:range rdf: resource= " &-datatypes;al_a2_UNType"/> 
<rdfs:label>a2<frdfs :label> 
</owl:DatatypeProperty> 


图 6-11 图 6-8 中 “a2” 属 性 在 OWL 中 的 数据 类 型 属性 
3. TE 


将 XML Schema 中 用 来 表示 复杂 类 型 的 特征 的 元 素 转 为 OWL 属性 : 
简单 类 型 元 素 被 转化 为 OWL 数据 类 型 属性 ,而 复杂 类 型 元 素 将 被 转化 为 
OWL 的 对 象 属性 。 我 们 定义 e< name. type. eid. annot. ct_ name. 
substitution group 为 一 个 XMLSchema 元 素 , 其 中 name 是 e 的 名 字 ,eid 是 
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e 的 标识 符 ,type 是 e 的 类 型 ,annot 是 e 的 注释 元 素 ,ct_name 是 在 定义 @ 
的 上 下 文中 复杂 XML Schema 类 型 c_ type 的 名 字 ( 如 果 e 是 一 个 顶层 属 
性 ,ct_name 取 值 为 空 ) ,substitution group( 可 选 ) 是 被 e 扩 展 的 元 素 。 在 
OWL 中 将 e 表示 为 一 个 (数据 类 型 或 对 象 ) 属 性 p(id,range,domain，label， 
comment, super property). 其 中 : (Did Æ p 的 唯一 的 rdf:ID, 其 值 取 
concatenate (name,'_',type) 的 值 ; Orange 表示 p 的 值 域 ,其 值 为 type 的 
值 ; @domain 表示 p 的 定义 域 , 取 值 为 cp_name 的 值 ; @label 是 p 的 标签 ， 
其 值 为 name 的 值 ; @oomment Æ p 的 上 下 文 描述 ,其 值 为 annot 的 值 ; 
(super property 是 对 p 所 指定 属性 的 特 化 ,其 值 为 substitutio_group 的 值 。 

以 图 6-12 中 所 示 的 定义 在 复杂 类 型 c_t2 条 件 下 的 元 素 e 为 例 ,e 元 素 
将 被 转化 为 如 图 6-13 中 所 示 的 OWL 对 象 属性 。 


<xs:element name="e" type="c-t2"/> 
图 6-12 ”和 嵌 套 在 复杂 类 型 “c-tl” 中 的 元 素 “e" 的 定义 


—owl:ObjectProperty rdf:ID =.. e-c-t2 ].. 
— rdfs : domain rdf: resource— " # c tl"/> 
— rdfs:range rdf:resource— . . # c-t2"/> 
rdfs: label e— frdfs : label 

—]Iowl: ObjectProperty— 


图 6-13 图 6-12 中 “e” 元 素 所 对 应 的 OWL 对 象 属性 


4. 复杂 类 型 


XML Schema 复杂 类 型 表示 具有 相同 特征 的 XML 实例 类 , 恰 与 OWL 
类 被 用 来 表示 具有 相同 属性 的 个 体 集 相同 。 因 此 我 们 将 XML Schema 中 的 
复杂 类 型 转化 为 OWL 类 。 假 设 ct (name, cid, base. annot. attributes. 
sequences ,choices) 为 一 个 XML Schema 复杂 类 型 ,其 中 : (Dname 表示 ct 的 
名 字 ; Ocid Æ ct 的 标识 符 ; @base 表示 由 ct 扩展 的 (简单 或 复杂 ) 类 型 ， 
GDannot 表示 对 元 素 ct 的 批注 定义 ; OD attributes 表示 ct 的 属性 序列 ; 
(sequences 表示 ct 的 顺序 序列 ; Dchoices 表示 ct 中 的 相 容 元 素 序列 。 


178 本 体 建 模 与 语义 Web 知识 发 现 


如 果 ct 是 由 一 个 复杂 类 型 派生 出 来 的 , 则 ct 将 被 转化 为 一 个 相应 的 
OWL 类 c Cid. super. class. label, comment, value restrictions, cardinality _ 
restrictions) ,其 中 : (D? ct 是 一 个 顶层 的 复杂 类 型 时 ,id 是 一 个 唯一 的 rdf: 
ID, 并 以 name 作为 它 的 值 。 当 ct 是 一 个 与 元 素 e 复杂 的 定义 赃 套 的 复杂 类 
型 时 ,name 的 值 将 是 一 个 concatenate (ct_ name. '_', element_ name. 
”UNType'") 形 式 的 自动 生成 的 名 字 ,而 且 该 名 字 是 唯一 的 ,在 concatenate 
(ct. name, '_'selement name. ' UNType) 中 ,ct name 是 包含 元 素 e 的 复 
杂 类 型 的 名 字 ,element_name 是 元 素 e 的 名 字 , 如 果 e 是 一 个 顶层 元 素 , 那 
么 ct_name 取 'NS' 的 值 ; @super _class 给 出 了 哪些 类 是 通过 ct 派生 出 来 
的 ,并 以 base 为 值 ; @label 表示 ct 的 标签 , 取 name 的 值 ; (Dcomment 表示 
ct 的 上 下 文 描 述 , 取 值 为 annot 的 值 ; @ value restrictions 是 指 对 c 的 属性 
的 值 约束 集 ; © cardinality _restrictions 是 指 赋予 表示 ct 属性 和 et 的 
sequence/choice 元 素 的 基数 约束 集 。 

当 ct 是 由 简单 类 型 派生 出 来 的 时 候 ,我 们 将 ct 转化 为 OWL 类 c(d, 
label,comment,value_restriction，cardinality_restrictions) ,其 相应 的 选项 
与 从 复杂 类 型 派生 出 来 的 复杂 类 型 的 类 中 具有 相同 的 语义 。 简 单 类 型 的 派 
生 通 过 基数 1 的 数据 类 型 属性 ep (eid，erange，edomain) 来 表示 ,其 中 : 
(Deid 表示 ep 的 唯一 的 rd:ID, 取 值 为 concatenate (base, ' content ff) fit ; 
Grange 表示 ep 的 定义 域 ,以 base 为 它 的 值 ; domain 表示 ep 的 值 域 ,其 
值 为 c 的 id 的 值 。 

ct 中 定义 或 引用 的 元 素 和 属性 将 被 转化 为 相应 的 OWL_DL 构造 器 。 

我 们 以 图 6-8 中 所 示 的 复杂 类 型 al 为 例 。 复 杂 类 型 al 将 被 表示 成 图 6-14 
中 所 示 的 带 有 content_xs_integer 数据 类 型 属性 的 ctOWL 类 ,其 content 
xs_integer 表示 al 是 xs: integer 的 派生 。 


5. 特定 顺序 和 选择 顺序 


XML Schema 的 特定 顺序 (sequences) 和 选择 顺序 (choices) 对 XML 元 
素 容 器 是 必 不 可 少 的 ,被 用 来 定义 复杂 类 型 和 模式 群 的 的 语 境 。 特 定 顺 序 
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«owl:Class rdf:ID= "a1 "> 
rd fs: subClassO f > 
owl: Restriction > 
—owl:onPropertg rd f :resource = "€ a2 al a2 UNType"/ 二 
— owl: maxCardinality rd f : datatype = "& xsd ; integer" 77 
— /owl : maxCardinalit y > 
 /owl: restriction 
 /rd fs: subClassO f > 
rd fs: subClassO f > 
out: Restriction 一 
—owl:onPropertg rd f : resource = 'content. xs integer" / > 
<owl: cardinality rd f :dataty pe = "&-xsd ; integer" > 
/owl :xardinality 
 / owl : Restriction977 
— /rd fs: subClassO f > 
rd fs: label al / rd fs: label 二 
owl : Class 
owl: DatatypePropertg rd f : ID — content, xs. integer"/ > 
— rd fs: domain rd f :resource = "X al"/77 
— rd fs:range rd f : resource = "& xs; integer" / > 
— /owl : Datat y pePropert y] 


图 6-14 图 6.8 中 复杂 类 型 “al" 所 对 应 的 OWL 类 


和 选择 顺序 之 间 的 主要 区 别 是 特定 顺序 中 的 元 素 是 有 序 的 ,而 选择 顺序 下 
的 元 素 是 无 序 的 。 我 们 将 特定 顺序 和 选择 顺序 都 转化 为 未 命名 的 OWL DL 
类 ,该 未 命名 的 OWL_DL 类 以 又 sequence/choice 选项 (元 素 , 特 定 顺 序 , 选 
择 顺序 ) 进 行 复 杂 基 数 约束 为 特征 ,该 未 命名 的 OWL_DL 类 将 被 定义 在 
sequences/choices 被 定义 或 引用 的 复杂 类 型 所 对 应 口 OWL 类 定义 中 。 
构造 器 的 下 界 最 小 基数 约束 表示 该 sequence/choice 选项 有 一 个 i_min_ 
occursXs min occurs 的 值 , 构 造 器 的 上 界 最 大 基数 约束 表示 该 sequence/ 
choice 选项 有 一 个 i max. occurs XX s... max. occurs 的 值 ,其 中 : (Di min_ 
occurs 是 该 项 的 minOccurs 的 值 ; Gs min. occurs 是 特定 顺序 sequence 的 
minOccurs 属性 的 值 ; @i_max_occurs 是 该 项 的 maxOccurs 属性 的 值 ; 
GDs max occurs 是 特定 顺序 sequence 的 maxOccurs 属性 的 值 。 此 外 ， 
sequence/choice 选项 的 基数 必须 在 [Li_min_occurs 一 imax_occurs ] 的 范围 内 。 
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特定 顺序 sequence 的 选项 必须 按照 特定 的 顺序 出 现 。 因 此 ,特性 顺序 
sequences 被 转化 为 未 命名 的 类 以 形成 对 他 们 的 选项 的 基数 约束 的 交集 。 需 
要 注意 的 是 : 当 一 个 特定 顺序 sequence 选项 被 包含 在 一 个 以 无 穷 大 为 上 界 
的 特定 顺序 sequence 中 ,该 选项 没有 最 大 基数 约束 时 ,特定 顺序 sequences 
基数 不 可 被 计算 。 此 外 ,特定 顺序 sequence 的 元 素 排 序 的 相关 信息 不 能 再 
OWL 中 表示 出 来 。 

以 图 6-15 中 所 示 特 定 顺序 为 例 ,该 特定 顺序 sequence 被 定义 在 复杂 类 型 
c_tl 中 。 则 该 特定 顺序 将 被 表示 成 图 6-16 中 所 示 的 c_tl 类 中 的 未 命名 类 。 


<xs: sequence minOccurs— "2" maxOccurs— "2" > 

<xs:element name— "el" type— "xs:string /> 

<xs:element name— "e2" type— "xs:strut g" maxOccurs— "3" / 7 
M xs:sequence-- 


图 6-15 复杂 类 型 c_typel 环境 下 的 特定 顺序 sequence 的 定义 


owl:Class> 
owl:intersectionOf rdf : parseType= "Collection" > 
—owl: Restriction 
—owl:onProperty rdf:resource—" £ el xs string" /—— 
—owl:cardinality rdf:datatype— " 6-xsd; integer" > 
</owl :cardinality> 
< owl: Restriction> 
owl: Restriction 
—owl:onProperty rdf:resource— " # e2 xs string" /7 
—owl: minCardinalityrdf : datatype— " &- xsd; integer" > 
— / owl: minCardinality— 
</owl: Restriction 
owl: Restriction 
—owl:onProperty rdf:resource— " # e2 xs string" /7 
< owl:maxCardinality rdf:datatype— " &-xsd;integer" 二 
— / owl: maxCardinality- 
—/owl: Restriction 
— /owl:intersectionOf— 
—/owl:Class 


图 6-16 图 6-15 中 的 特定 顺序 在 OWL 中 的 顺序 
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选择 顺序 choice 的 选项 可 以 以 任意 顺序 出 现 。 因 此 ,我 们 将 选择 顺序 
choice 转化 为 未 命名 的 类 以 形成 对 选择 顺序 choice 的 元 素 的 基数 约束 的 允 
许 组 合 的 并 集 。 需 要 注意 的 是 : 当选 择 顺 序 choice 中 的 某 一 个 choice 选项 
的 出 现 上 限 为 无 穷 大 的 时 候 该 选择 顺序 基数 不 可 以 被 用 来 计算 。 

表示 XML Schema 中 的 选择 顺序 choices 和 特定 顺序 sequences 的 未 命 
名 的 类 是 通过 上 述 的 算法 来 实现 的 。 需 要 注意 的 是 : 如 果 sequence/choice 
发 生 的 最 大 数 一 个 很 大 的 数 (不 是 无 穷 大 ) 时 ,手工 生产 约束 是 繁琐 而 且 很 
耗 时 间 的 ,甚至 会 产生 很 多 错误 ,因此 在 实际 操作 中 将 不 可 能 实现 。 


6. 引用 


被 复杂 类 型 定义 所 引用 的 XML Schema 属性 ,属性 组 ,元 素 和 模型 组 将 
被 转化 为 OWL_DL 数据 类 型 (如 果 他 们 本 身 是 属性 或 者 简单 类 型 元 素 或 者 
他 们 包含 属性 或 简单 类 型 元 素 ) 或 对 象 ( 当 他 们 包含 复杂 类 型 元 素 ) 属 性 。 
假设 ref (ae) 是 一 个 引用 类 型 ,ref (ae) 在 一 个 复杂 类 型 ct 中 引用 了 XML 的 
ae 属性 或 元 素 。 则 该 引用 将 被 表示 为 (数据 类 型 或 对 象 ) 属性 rp Cid. 
domain) ,其 中 id 表示 rp 的 rdf :ID, 其 取 值 为 表示 ae 的 属性 的 rdf:ID 的 
值 ,domain 表示 rp 的 定义 域 ,其 取 值 为 表示 ct 的 OWL 类 c 的 rdf:ID 的 值 。 


7. XML 实例 文档 到 OWL 实例 文档 的 映射 


从 XML 实例 文档 到 OWL 实例 文档 的 映射 过 程 的 输入 包括 前 一 步 又 
中 生成 的 OWL 本 体 模 型 和 给 定 的 XML 实例 文档 。 映 射 的 第 一 步 是 为 
OWL 实例 文档 指定 命名 空间 。 我 们 使 用 http://www. w3. org/2002/07/ 
owl 为 支持 OWL 语义 的 命名 空间 ,同时 我 们 使 用 http://www. w3. org/ 
1999/02/22-rdf-syntaxns 名 称 空间 来 为 RDF 提供 语义 支持 。 然 后 将 确保 
OWL 实例 文档 中 的 每 一 个 类 和 属性 的 名 字 的 唯一 性 ,由 于 对 XML 实例 文 
档 的 处 理 时 从 根 节点 开始 的 ,将 默认 为 每 一 个 元 素 添加 一 个 ID 以 区 分 同名 
元 素 , 当 遇 到 同名 元 素 时 我 们 将 前 一 个 与 当前 元 素 同名 的 元 素 的 ID 值 加 1 
赋 给 当前 元 素 。 
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6.4 基于 Ontology 的 领域 知识 库 构 建 


知识 服务 作为 面向 内 容 的 增值 服务 ,需要 对 知识 进行 系统 化 、 综 合 
深入 化 地 加 工 、 组 织 和 处 理 。 知 识 库 和 知识 发 现 是 知识 服务 的 关键 技术 , 特 
别 在 基于 知识 库 的 知识 发 现 领 域 ,知识 库 必 须 是 共享 的 学 习 型 的 ,将 本 体 技 
术 引 入 此 领域 根本 上 解决 了 知识 库 机 器 学 习 的 瓶颈 问题 。 


6.4.1 领域 知识 


知识 库 是 为 解决 特定 的 问题 ,采用 合理 的 知识 表示 和 组 织 方式 对 该 问 
题 相关 概念 及 其 关系 存储 和 管理 的 知识 集合 。 知 识 库 包括 两 个 部 分 ; 一 部 
分 由 相关 术语 及 其 关系 构成 , 另 一 部 分 由 术语 的 具体 实例 及 其 关系 的 实例 
构成 。 要 研究 领域 知识 库 首 先 要 理解 领域 知识 的 概念 。 领 域 知 识 是 一 个 源 
于 人 工 智能 领域 的 术语 ,在 人 工 智 能 领域 ,领域 知识 主要 应 用 在 基于 知识 的 
专家 系统 和 自然 语言 理解 的 系统 中 。 领 域 知识 是 指 在 某 一 领域 内 的 概念 、 
概念 之 间 的 相互 关系 以 及 有 关 概 念 的 约束 的 集合 。 

根据 不 同 领域 和 不 同 的 应 用 需要 ,领域 知识 这 一 术语 的 定义 也 有 所 不 
同 。 知 识 工程 对 领域 知识 进行 了 三 个 方面 的 描述 

(1) 领域 知识 是 一 个 概念 模型 ,这 个 概念 模型 包含 概念 和 概念 之 间 的 
关系 ; 

(2) 领域 知识 是 概念 和 概念 之 间 的 约束 ; 

(3) 领域 知识 是 陈述 如 何 推导 或 计算 出 新 概念 和 新 概念 之 间 关 系 的 
规则 。 

在 数据 挖掘 处 理 的 过 程 中 ,领域 知识 是 指 一 个 专门 领域 的 重要 问题 或 
概念 以 及 这 些 问题 和 概念 之 间 的 相互 关系 。 SORRI 
关于 某 一 特定 领域 的 陈述 性 知识 和 过 程 性 知识 的 集合 ,知识 通过 一 定 的 表 
示 , 存 储 在 知识 库 中 。 在 数据 库 知 识 发 现 系统 的 应 用 及 其 他 相似 系统 的 应 
用 中 ,领域 知识 定义 为 没有 在 数据 库 中 明确 表达 的 知识 。 
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6.4.2 领域 知识 库 和 本 体 


从 知识 表示 角度 考虑 ,本 体 和 知识 库 有 类 似 之 处 ,都 是 对 一 个 具体 或 是 
抽象 领域 中 包含 的 知识 的 定义 .表示 和 组 织 。 根 据 Gomez 定义 : 知识 库 是 
知识 系统 的 知识 模块 , 它 包含 特定 领域 抽象 或 特定 知识 ,这 些 知识 以 机 器 可 
读 的 格式 表达 。 知 识 库 的 知识 可 以 是 描述 性 或 过 程 性 。Gruber 认为 本 体 是 
概念 层次 上 对 概念 化 的 清楚 描述 ,注重 概念 层次 上 术语 及 术语 间 关 系 的 表 
述 。 可 见 , 本 体 侧重 于 领域 知识 内 容 的 描述 ,而 知识 库 更 侧重 于 领域 知识 的 
表示 ,组织 和 存储 。 

在 本 体 的 概念 提出 来 之 后 ,理想 的 领域 知识 库 是 应 该 建立 在 领域 本 体 
的 基础 之 上 的 ,根据 领域 本 体 中 的 全 部 或 部 分 概念 生成 系统 所 需 的 知识 库 。 
而 且 本 体 为 人 们 描述 目标 世界 提供 了 一 组 通用 词汇 ,而 这 种 通用 的 词汇 正 
是 实现 知识 系统 化 的 基础 。 通 用 词汇 和 知识 的 系统 化 有 利于 实现 知识 的 标 
准 化 。 因 此 ,知识 库 应 该 建立 在 本 体 的 基础 之 上 ,本 体 是 知识 库 建立 的 
基础 。 


6.4.3 基于 本 体 构建 领域 知识 库 的 优势 


使 用 本 体 建 模 的 方法 和 相关 知识 表示 的 标准 及 交换 协议 建立 知识 库 ， 
便于 研究 者 之 间 的 交流 、 协 作 开 发 ,对 计算 机 系统 来 说 可 以 实现 不 同 领域 ， 
不 同 模型 之 间 的 跨 平 台 的 方法 .数据 .任务 .工具 的 转换 和 共享 。 使 用 本 体 
建 模 的 优点 有 很 多 ,主要 有 : 

d) 可 重用 : Ontology 是 某 领域 的 基本 概念 属性、 处 理 方法 和 内 在 关 
系 的 形式 化 表述 ,这 种 表述 可 以 被 重用 和 共享 ; 

(2) 便于 查找 : 便于 基于 Ontology 的 具有 一 定 智 能 的 以 内 容 为 目标 的 
查找 ; 

G) 可 靠 性 : 模型 的 形式 化 表述 便于 正确 性 检查 ; 

(4) 有 助 于 任务 解析 : 用 Ontology 进行 规范 任务 的 形式 化 表述 ,有 助 
于 任务 的 解析 ; 
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(5) 可 维护 性 : 使 用 Ontology 进行 系统 建 模 ,使 系统 结构 、 文 档 和 编码 
都 更 加 清晰 ,使 系统 的 维护 更 加 容易 。 
利用 Ontology 的 思想 对 领域 知识 库 进行 建 模 , 可 以 使 相互 独立 的 层次 
有 机 地 组 成 一 个 完整 的 系统 ,可 以 实现 领域 知识 的 共享 和 重用 ,而 且 领 域 知 
识 概 念 模型 的 形式 化 描述 便于 正确 性 检查 ,可 以 使 领域 知识 库 的 结构 更 加 
清晰 ,更 有 利于 领域 知识 库 的 维护 。 

领域 知识 库 是 一 个 在 文本 的 主题 和 内 容 分 析 研 究 中 ,用 于 揭示 领域 特 
征 概 念 与 领域 特征 概念 之 间 以 及 领域 特征 概念 所 具有 的 属性 之 间 的 关系 的 
常识 性 知识 库 。 领 域 知识 库 面向 计算 机 ,是 借助 于 计算 机 建立 的 。 领 域 知 
识 库 反 映 了 领域 特征 概念 之 间 和 领域 特征 属性 之 间 的 各 种 关系 ,领域 知识 
库 着 重 体现 的 是 领域 特征 概念 的 上 下 位 关系 。 


6.4.4 领域 知识 库 的 构建 


构建 领域 知识 库 , 首 先 要 提取 领域 特征 属性 ,应 遵循 以 下 三 个 基本 的 

CD. 领域 特征 属性 能 够 描述 某 一 领域 的 领域 特征 概念 , 且 不 易于 再 
LED 

(2) 领域 特征 属性 一 定 要 能 够 描述 某 一 领域 中 全 部 的 领域 特征 概念 ; 

(3) 领域 特征 属性 是 稳定 的 ,是 必须 确定 的 。 


1. 知识 表示 


知识 表示 (Knowledge Representation) 即 知识 表达 或 知识 描述 ,是 为 描 
述 世 界 所 做 的 一 组 约定 ,是 知识 的 符号 化 过 程 。 各 种 不 同 的 知识 表示 方法 
是 各 种 不 同 的 形式 化 的 知识 模型 。 可 以 用 不 同 的 方式 来 描述 同一 事物 , 那 
么 对 于 同一 表示 模式 的 知识 ,也 可 以 采用 不 同 的 表示 方法 。 

知识 表示 方法 是 知识 工程 师 对 领域 知识 的 事实 和 关系 的 一 种 模型 化 。 
知识 的 表示 方法 有 很 多 。 如 : 一 阶 谓词 逻辑 表示 法 、 产 生 式 表示 法 、 语 义 网 
络 表 示 法 ,框架 表示 法 、 脚 本 表示 法 ,状态 空间 表示 法 ,等 等 。 
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D 一 阶 谓词 逻辑 表示 法 (First order predicate logic) 是 最 早 使 用 的 知识 
表示 方法 , 它 具 有 简单 自然. 精确. 灵活、 模块 性 好 等 优点 , 它 的 推理 机 制 采 
用 归结 原理 ,这 种 推理 方法 严格 .完备 .通用 ,比较 适用 于 用 定理 方法 求解 问 
题 的 系统 。 一 阶 谓词 逻辑 表示 法 的 缺点 是 难以 表达 和 加 入 启发 性 知识 及 元 
知识 ,不 易 实现 非 单调 和 不 精确 推理 。 

2) 产生 式 (Production) 是 在 1943 年 由 逻辑 学 家 Post 提出 的 , 称 Post 
演算 。 但 是 由 现在 的 知识 表示 的 研究 发 展 形成 的 产生 式 与 Post 早期 提出 的 
概念 大 不 相同 。 产 生 式 表示 法 又 称 规 则 表示 法 。 产 生 式 规则 的 一 般 形式 
为 : {过 前 提 二 then 过 动作 二 (或 二 结论 二 ), 它 的 推理 机 制 以 演绎 推理 为 基 
础 ,推理 系统 也 称 为 产生 式 系统 。 产 生 式 系统 具有 自然 .灵活 、 模 块 性 好 、 通 
用 性 强 等 优点 。 它 是 目前 应 用 最 广泛 的 知识 表示 方法 。 产 生 式 表 示 法 的 缺 
点 是 效率 低 ,表达 能 力 低 。 

3) 语义 网 络 最 初 是 用 来 描述 英语 的 词义 ,最 早 是 作为 知识 表示 工具 讨 
论 的 ,语义 网 络 的 实质 是 基于 广义 图 的 表示 法 ,一 由 结 点 和 弧 ( 包 括 超 弧 ) 所 
组 成 ,其 中 结 点 代表 概念 , 结 点 之 间 的 弧 或 超 弧 说 明了 它们 之 间 的 相互 关 
系 。 用 语义 网 络 表示 知识 能 够 直接 而 明确 地 表达 概念 之 间 的 语义 关系 , 相 
关 事 实 可 以 从 其 直接 相连 的 结 点 中 推导 出 来 ,而 不 必 遍 历 整 个 庞大 的 数据 
库 , 重 要 的 相关 性 能 被 明确 而 清晰 地 表达 出 来 ,着 重 于 表达 语义 关系 知识 ， 
体现 了 联想 思维 过 程 ,易于 对 继承 层次 进行 演绎 。 语 义 网 络 表示 法 的 缺点 
是 不 能 像 逻 辑 方法 那样 保证 网 络 操作 所 得 推论 的 严格 性 和 有 效 性 ,不 便于 
表达 判断 性 知识 和 深层 知识 。 通 常 将 语义 网 络 和 其 他 知识 表示 方法 结合 
来 运用 。 

4) 框架 (Frame) 是 1975 年 由 著名 人 工 智 能 学 者 Minsky 在 研究 计算 机 
视觉 问题 时 提出 的 ,知识 框架 表示 法 的 基本 出 发 点 是 : 把 人 们 头脑 中 的 不 同 
概念 看 成 是 一 定 的 知识 体 或 一 定 的 数据 结构 , 即 看 作 框 架 。 所 谓 框架 就 是 
一 种 描述 某 种 形态 的 数据 结构 。 框 架 常用 于 描述 具有 固定 形式 的 对 象 。 

框架 表示 法 的 优点 很 多 : 

C) 框架 的 柑 套 式 结构 可 以 由 浅 入 深 地 对 事物 细节 进行 知识 表达 ,框架 
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的 继承 性 可 实现 高 效 的 推理 ; 

(2) 槽 的 过 程 附件 不 仅 提 供 了 附加 推理 机 制 ,还 可 以 进行 矛盾 检测 , 框 
架 表 示 有 利于 “领域 知识 库 ” 的 一 致 性 维护 ; 

G) 框架 常用 于 描述 给 定 事物 所 具有 的 一 组 属性 ,是 更 加 面向 语义 的 知 
识 表示 方法 。 

5) 脚本 表示 法 是 由 Roger C. Shank 提出 的 , 它 的 结构 类 似 于 框架 ,用 于 
描述 固定 的 事件 序列 。 与 脚本 相 比 ,框架 是 一 种 通用 的 结构 ,而 脚本 的 形式 
比 框架 的 形式 应 用 范围 窗 , 它 对 于 表示 某 些 专门 知识 更 为 有 效 , 如 理解 故事 
情节 等 。 

6) 状态 空间 表示 法 是 知识 处 理学 中 最 基本 的 形式 化 方法 ,是 其 他 形式 
化 方法 和 问题 求解 技术 的 出 发 点 。 问 题 的 状态 空间 表示 问题 的 全 不 可 能 状 
态 及 其 相互 关系 ,可 以 用 一 个 赋值 有 向 图 来 表示 。 问 题 的 状态 空间 常 记 为 
三 元 组 (S,0,G) ,其 中 S 为 问题 的 所 有 初始 状态 的 集合 ,O 为 所 有 操作 的 集 
合 ,G 为 目标 状态 的 集合 。 在 状态 空间 表示 法 中 ,问题 求解 的 过 程 转化 为 在 
图 中 寻找 从 初始 状态 S 出 发 到 目标 状态 G 的 路 径 问 题 。 

7) Petri 网 是 由 C. A. Petri 博士 在 1962 年 提出 的 。 利 用 Petri 网 表示 
知识 ,根据 Petri 网 的 特性 ,我 们 就 能 处 理 并 行 推理 .无 回溯 推理 \ 反 向 推理 
等 问题 。 利 用 Petri 网 可 以 模拟 逻辑 运算 、 产 生 式 规则 、 语 义 网 络 、 框 架 , 状 
态 空间 等 多 种 功能 。 因 此 Petri 网 可 作为 一 种 通用 的 知识 表示 形式 。 

除了 以 上 的 几 种 主要 知识 表示 方法 以 外 ,还 有 许多 知识 表示 方法 。 如 
关系 表示 法 (又 称 “特征 表 ” 表 示 法 )、“ 与 /或 "图 表示 法 、 概 念 从 属 表 示 法 、 直 
接 表 示 法 .过 程 表示 法 ` 面 向 对 象 的 表示 法 ,等 等 。 

领域 知识 库 对 领域 特征 概念 的 描述 也 要 有 一 套 规 范 的 方法 和 规定 来 保 
证 最 大 限度 地 表现 领域 特征 概念 之 间 以 及 领域 特征 概念 属性 之 间 的 相互 关 
系 。 在 解决 某 一 问题 时 ,不 同 的 表示 方法 可 能 产生 完全 不 同 的 效果 。 为 了 
有 效 的 解决 问题 ,必须 要 选择 一 种 良好 的 知识 表示 方法 。 选 择 合 适 的 知识 
表示 方法 通常 从 四 个 方面 要 求 : 

(1) 表示 能 力 。 在 语义 上 能 够 较 好 地 反映 领域 专家 的 知识 的 含义 ,在 语 
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法 上 能 够 方便 识别 和 处 理 ; 

(2) 推理 效率 。 使 推理 机 寻找 答案 的 搜索 路 径 尽 可 能 短 , 并 且 不 出 现 
循环 ; 

(3) 易于 维护 。 对 知识 进行 添加 修改 ,删除 一致 性 维护 等 操作 易于 
实现 ; 

(4) 正确 性 。 知 识 表示 在 语义 上 能 准确 地 表达 领域 专家 知识 的 含义 ,这 
是 推理 正确 性 的 基础 。 

在 领域 知识 库 中 ,每 个 框架 表示 领域 知识 库 中 的 一 个 领域 特征 概念 。 
框架 中 的 槽 描述 领域 特征 概念 的 各 种 属性 。 其 中 ,领域 特征 属性 ”是 我 们 
重点 要 研究 的 内 容 。 

基于 OWL 语言 的 本 体 是 描述 某 一 领域 共享 领域 特征 概念 ”模型 的 明 
确 的 形式 化 规范 说 明 ,因而 本 文 讨论 基于 本 体 的 知识 库 构 建 。 


2. 知识 库 构 建 流 程 


领域 本 体 知 识 库 的 构建 一 般 包 括 三 部 分 : 知识 获取 、 构 建 本 体 概 念 树 和 
知识 的 表示 ,前 两 部 分 起 着 至 关 重 要 的 作用 。 知 识 获 取 是 将 从 该 领域 采集 
的 数据 转换 成 容易 存储 容易 处 理 的 形式 ,使 计算 机 可 以 读 取 。 概 念 树 的 组 
织 过 程 主要 是 把 从 该 领域 抽取 的 概念 以 及 其 之 间 的 关系 以 树 形 结构 表示 出 
来 ,这 两 部 分 的 处 理 关系 到 之 后 本 体 推理 中 信息 检索 的 质量 问题 ,因为 领域 
知识 的 限制 ,这 两 部 分 的 完成 需要 相关 专家 的 参与 。 知 识 表示 是 实现 本 体 
结构 与 信息 数据 的 连接 。 

该 建 模 过 程 有 如 下 优势 : 四 因为 本 体 结构 与 信息 数据 的 精确 映射 ,可 以 
准确 地 表示 领域 知识 ; 四 领域 专家 的 参与 可 以 确保 定义 概念 关系 的 正确 性 ， 
实现 推理 的 一 致 性 检测 ,提高 检索 的 精确 性 ; 名 从 描述 性 和 验证 性 两 方面 对 
所 建 本 体 进行 评估 ,不 断 修正 和 完善 本 体 结构 。 

对 知识 库 中 知识 的 获取 和 概念 树 的 组 织 过 程 ,知识 库 的 构建 流程 如 
图 6-17 所 示 。 

这 里 以 中 医 跨 证 知识 本 体 忆 为 例 进行 说 明 。 根 据 以 上 理论 ,通过 人 工 
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a ooo 知识 整理 
定义 类 、 属 性 、 关 系 以 及 1 
实例 等 < 一 一 | 提取 SV()O 
1 对 应 
用 OWL 语 言 对 本 体 作 形式 => 知识 表示 
化 描述 
领域 本 体 构建 
描述 性 评价 
需要 完善 


验证 性 评价 


本 体 评价 


图 6-17 知识 库 的 构建 流程 


收集 和 整理 ( 丁 甘 人 医 案 ， 伤寒 案 》《 中 华 医 典 ) 中 所 收录 的 名 医 案 中 涉及 
到 的 喘 证 案例 ,选取 600 余 例 跨 证 医 案 为 研究 对 象 ,在 领域 专家 的 参与 下 并 
参考 中 医学 相关 标准 ,在 排除 概念 的 元 余 性 、 歧 义 性 及 保证 概念 术语 正确 的 
前 提 下 ETE" Ia EWE” LM E." Rd" gi 8" ZR ”及 "上 气 等 关键 词 作 
为 研究 核心 概念 ,筛选 整理 医 案 ,最 终 确 定 相关 属性 字段 千 余 个 ,建立 较为 完 
善 的 中 医 喘 证 医 案 数据 库 , 如 图 6-18 所 示 , 将 此 作为 研究 对 象 的 形式 背景 。 

A) 定义 喘 证 本 体 结构 的 类 及 其 层次 关系 

在 中 医 专家 的 参与 下 对 抽取 的 重要 概念 自 顶 至 下 定义 出 基本 的 类 和 层 
次 关系 ,并 用 建 模 工 具 Protégé4. 1. 0 建立 中 医 喘 证 领域 本 体 类 关系 的 初始 
模型 。 其 中 ,定义 的 类 与 本 体 结构 中 的 类 一 致 ,对 象 与 本 体 结构 中 的 实例 一 
致 ,例如 ,外 感 型 跨 是 实 跨 的 子 类 ,而 实 喘 又 是 跨 证 的 子 类 ,用 本 体 语 言 描述 
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A B c D E F G 
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2 Esa [h E AR. E SAR UB 
3] Qu r3 hE GAB IE I EA 
4| jump — m ZAR EAR 滑 
5|3 me Æ ZAR AF iL BGB aik, 
6 |4 Pg. mb 小 便 短 赤 ， 便 秘 lA 沉 实 
7 5 上 短 、 M En vg, 85 Zi. EB Bed 
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917 Mie m | 状 执 ET md 
io|g pg — [d | 状 热 ， 口 渴 REL Bob NPA 
uo fps [s ES HRI, Jes. 纳 呆 ,便秘 E. X F3 
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16 (71 m |E : Lih. LI. J|] MER. ARIEL EJ [zu d 
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19 176 mp ”| 中 ie AR. MERE Ei 
2078 fug |h bmi. m3. Bir. mur. [SB I4 
21 [81 
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图 6-18 MJE BE R AGE E 
这 种 关系 如 下 : 


<owl: Class rd f : ID = "Pg AI lg " > 
rd f s: subClassO f > 

<owl:Class rd f : ID= "clip" / > 

— / rd fs: subClassO f > 

— / owl : Class 

owl: Class rd f :about = "Sz Wig " > 
rd fs: subClassO f > 

owl: Class rd f : about = "Wi iE "/ > 
— / rd fs:subClassOf. > 
</owl:Class > 


(2) 定义 并 应 用 各 类 之 间 的 关系 

定义 各 类 之 间 的 关系 ,每 一 种 关系 都 是 概念 与 概念 间 的 一 种 映射 ,可 以 
看 成 是 二 元 组 或 多 元 组 函数 ,函数 定义 域 和 值 域 的 取 值 就 是 喘 证 领域 内 定 
义 的 类 和 子 类 的 对 象 ,每 种 关系 相对 应 的 ObjectProperty 属性 的 domain F 
属性 可 以 用 来 设置 函数 的 定义 域 ,关系 对 应 的 ObjectProperty 属性 的 rang 
子 属性 可 以 用 来 设置 函数 的 值 域 ,如 此 可 以 使 本 体 体系 中 各 类 的 关联 更 加 
简单 ,以 下 显示 的 是 ObjectProperty 属性 “ 痰 象 * 以 及 它 的 特殊 性 质 ,其 中 


190 本 体 建 模 与 语义 Web 知识 发 现 


“ 痰 象 " 的 定义 域 是 案例 , 值 域 是 由 * 痰 白 "“ 痰 黄 "” 和 "* 痰 清 稀 ?组 成 的 并 集 构 
成 ,可 以 看 出 值 域 的 并 集 构成 了 值 域 ,而 且 值 域 还 有 传递 属性 。 


Cowl: TransitiveProperty  ) 
owl: TransitiveProperty rd f :about =" & R " 
rd fs: domain rd f: resource — "#4 RØ "> 
owl: inverseOf rdf: resource = "& fJ "> 
<rdfs: range> 
<owl: Class> 
owl: unionOf rdf: parseType = 'Collection" > 
<owl: Class rdf: about = "#3 AĤ "> 
<owl: Class rdf: about = "E FEBRE "> 
<owl: Class rdf: about = "#3 iB fili "> 
</owl: unionOf > 
</owl: Class> 
</rdfs: range> 
<rdf: type rdf: resource — htt p://www. w3 .org/ 2002/07 /owl € ObjectProperty/ > 
</owl: TransitiveProperty> 


(3) 确定 各 本 体 类 的 属性 及 其 属性 间 的 关系 

确定 本 体 类 的 属性 时 要 给 出 属性 名 、 属 性 值 及 属性 类 型 等 ,这 些 内 容 对 
应 本 体系 统 中 的 数据 类 型 属性 。 在 比较 属性 之 间 的 关系 时 可 以 利用 属性 的 
这 些 内 容 , 也 就 是 说 个 体 之 间 通 过 属性 连接 起 来 。 

本 体 结构 中 概念 间 的 关系 有 以 下 几 种 : 

概念 之 间 部 分 与 整体 的 关系 (Part of) ,例如 ,键盘 和 电脑 ,因为 概念 键盘 
是 概念 电脑 的 一 部 分 。 

概念 之 间 的 父子 继承 关系 (Kind of) ,例如 ,汽车 和 乘 用 车 , 乘 用 车 是 汽 
车 的 父 概 念 ,汽车 是 乘 用 车 的 子 概念 。 

概念 的 实例 和 概念 之 间 的 关系 (instance of) ,例如 ,商用 车 和 客车 ,客车 
这 一 概念 是 商用 车 这 一 概念 的 一 个 实例 。 

某 概念 是 另 一 概念 的 属性 (attribute of) ,例如 成绩 和 学 生 ,概念 成 绩 是 
学 生 这 一 概念 的 一 个 属性 。 

概念 之 间 的 联系 使 概念 间 有 多 种 多 样 的 语义 关系 ,利用 规则 推理 就 可 
以 得 到 其 蕴含 的 关系 。 
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(4) 定义 概念 的 词义 扩展 关系 

比如 相同 、 相 异 、 相 反 及 父子 继承 关系 等 ; 只 有 本 体 模 型 能 够 对 词语 间 
的 相同 、 相 异 及 相反 及 父子 继承 等 关系 进行 查询 ,才能 达到 对 基于 关键 字 的 
语义 检索 。 例 如 性 喘息 > 和 ”* 微 跨 ? 意 思 相 近 , 如 果 把 其 中 的 一 个 词语 作为 核 
心 词汇 输入 系统 , 既 可 以 得 到 核心 词汇 本 身 的 信息 ,还 能 得 到 与 核心 词汇 意 
思 相 近 的 信息 内 容 。 这 也 是 将 来 提升 案例 检索 系统 查 全 率 的 关键 技术 。 

(5) 实例 填充 

将 具体 的 例子 写 入 (1) 中 定义 的 类 ,同时 对 例子 的 属性 及 其 属性 值 进行 
定义 和 扩充 。 

(6) 修正 本 体 模型 

利用 Jean 推理 机 "完成 对 初始 构造 的 本 体 结构 的 推理 ,检验 该 本 体 结 
构 模 型 是 否 合理 及 本 体 结构 中 的 概念 是 否 一 致 ,修正 并 完善 不 符合 一 致 性 
的 概念 。 

(7) 确定 本 体 的 存储 方式 

在 对 本 体 进 行 存储 时 可 以 将 其 以 OWL 或 RDF 等 文件 格式 存储 ,也 可 
以 用 数据 库 的 形式 进行 存储 。 在 本 文 的 研究 中 ,我 们 选择 OWL 的 文件 格式 
存储 喘 证 本 体 模 型 ,采用 关系 数据 库存 储 知识 库 中 的 数据 信息 。 

应 用 Protégé 工具 建立 的 中 医 器 证 本 体 片段 如 图 6-19 所 示 。 


图 6-19 中 医 跨 证 本 体 片 段 
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XML 是 结构 化 标记 语言 , 即 实现 “文档 结构 化 ”的 语言 规范 ,是 与 特定 
领域 有 关 的 、 具 有 语义 和 结构 化 等 特点 的 元 标记 语言 。XML 将 文件 的 内 容 
和 外 观 进行 分 离 ,其 所 具有 的 可 延伸 性 及 自我 描述 特性 ,使 得 Web 文件 可 以 
在 全 球 信息 网 或 企业 间 的 应 用 程序 中 自动 传输 、 处 理 及 储存 ,不 同 厂商 的 电 
子 商品 目录 可 以 共享 ,信息 的 搜索 变 得 更 为 准确 快速 ,不 同系 统 间 的 信息 流 
通 更 加 顺畅 ,给 Web 应 用 乃至 网 络 计算 注入 了 新 的 活力 。 


7.1 XML 的 有 关 技术 规范 


自从 XML1. 0 规范 发 布 之 后 ,XML 的 有 关 技术 规范 不 断 涌现 。W3C 
在 1999 年 先后 推出 了 Namespaces in XML(XML 中 的 名 字 空 间 )、CSS2、 
Associating Style Sheets with XML Documents (将 样式 表 关 联 到 XML X 
档 ) 等 推荐 标准 ,与 XML 有 关 的 重要 技术 规范 还 包括 DOM、XSL、XLink 和 
XML Schema 等 中 。2001 年 12 月 13 日 .XML 1. 1 作为 一 份 工作 草案 被 发 
布 ,并 作为 一 项 候选 推荐 发 布 于 2002 年 10 月 15 日 ,XML 1. 1 允许 在 名 称 
中 使 用 几乎 所 有 的 Unicode 字符 。 


7.1.1 DOM 


围绕 XML 出 现 的 各 种 标准 的 应 用 编程 接口 (API) ,对 XML 应 用 开发 
来 说 无 疑 是 十 分 重要 的 。 应 用 开发 者 可 以 使 用 这 些 标准 的 接口 来 获得 和 设 
置 XML 文档 中 的 元 素 、 属 性 、 数 据 内 容 等 。 在 这 些 XML 的 应 用 编程 接口 
中 ,最 重要 的 是 W3C 制定 的 DOM (Document Object Model 文档 对 象 模 
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型 )。DOM 是 基于 文档 的 树 状 结构 , 它 提 供 了 用 来 表示 XML 文档 和 
HTML 文档 的 一 组 标准 的 对 象 组 合 ,这 些 对 象 的 标准 模型 以 及 存 取 和 操纵 
它们 的 一 个 标准 接口 。DOM level 1 已 于 1998 年 10 月 推出 , 它 是 W3C 为 
XML 文档 和 HTML 文档 制定 的 一 个 独立 于 平台 和 语言 的 编程 接口 标准 ， 
使 得 程序 和 脚本 能 以 标准 的 方式 存 取 与 更 新 文档 的 内 容 、 结 构 和 样式 。 其 
中 DOM level 1 的 核心 (Core) 部 分 提供 了 能 表示 结构 化 文档 的 一 组 低层 的 
基本 接口 集 ,并 定义 了 用 来 表示 XML 文档 的 扩展 接口 。DOM level 1 的 
HTML 部 分 在 上 述 基 本 接口 集 的 基础 上 定义 适用 于 HTML 文档 的 额外 的 
高 层 接口 ,DOM level 2 尚 在 制定 过 程 中 , 它 建立 在 DOM level 1 之 上 ,给 出 
了 用 来 创建 和 操纵 文档 结构 和 内 容 的 一 组 核心 接口 ,并 提供 一 组 可 选 模块 ， 
这 些 模 块 包含 了 为 XMIL、HTML ,抽象 视图 、 类 属 样式 表 、 层 番 样 式 表 文档 
结构 的 遍历 .Range 对 象 等 特制 的 专用 接口 。 


7.1.2 XSL 


XML 的 一 个 最 重要 的 特性 是 能 够 把 内 容 和 显示 格式 分 开 , 这 个 特性 给 
用 户 带 来 了 很 大 的 好 处 ,可 以 让 不 同 的 用 户 按照 各 自 希望 的 格式 显示 同一 
XML 文档 的 数据 内 容 。 这 也 就 意味 着 XML 文档 本 身 并 没有 关于 格式 方面 
的 信息 ,为 XML 文档 提供 格式 信息 的 是 样式 表 , 适 用 于 XML 文档 的 样式 表 
语言 有 XSL 和 CSS2 语言 。CSS2 语言 既 可 以 用 于 HTML 文档 也 可 以 用 于 
XML 文档 ; 而 XSL 是 专 为 XML 设计 的 样式 表 语 言 ,并 采用 XML 语法 , 目 
前 处 于 W3C 的 工作 草案 阶段 。XSL 的 优势 在 于 它 可 以 用 于 转换 。 当 然 
XSL 也 可 以 把 XML 文档 转换 为 HTML 格式 ,而 且 同 一 个 样式 表 可 以 用 于 
多 个 具有 相似 源 树 结构 的 文档 。 显 示 的 媒介 不 仅 限于 Web 浏览 器 ,还 可 以 
是 印 在 纸 上 的 书 和 报告 等 。 

处 理 XSL 样式 表 的 是 XSL 样式 表 处 理 器 ,样式 表 处 理 器 接受 一 个 
XML 文档 或 数据 ,以 及 XSL 样式 表 , 输 出 特定 样式 的 显示 ,其 显示 格式 根据 
XSL 样式 表 确 定 。 这 个 处 理 过 程 分 两 步 进 行 ,首先 从 XML 源 树 构建 一 棵 结 
果树 ,然后 翻译 结果 树 ,产生 作用 于 显示 器 或 纸 或 其 他 媒介 的 显示 。 第 一 步 
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被 称 为 树 转 换 , 在 XSLT (XSL Transformation) 中 详 述 ; 第 二 步 称 为 格式 
化 ,在 XSL 规范 中 有 详细 说 明 。 


7.1.3 Xlink 简介 


XLink 是 一 种 用 XML 元 素 向 XML 文档 中 加 入 链接 的 机 制 。 它 提供 了 
比 HTML 更 加 灵活 的 链接 机 制 , 不 仅 支 持 HTML 的 单 向 链接 ,还 支持 多 目 
的 、 多 方向 链接 , 它 甚 至 还 允许 链接 单独 提出 来 存放 在 数据 库 中 ,或 者 是 单 
独 的 文档 中 。XLink 通过 URI 引用 来 定位 资源 ,URI 引用 由 URI 和 一 个 可 
选 的 块 标识 符 构 成 ,两 者 用 井 号 # 分 开 。 对 于 定位 XML 文档 来 说 , 块 标识 
符 使 用 Xpointer 规定 的 格式 。 对 于 链接 元 素来 说 ,应 用 软件 可 以 通过 获取 
元 素 类 型 及 属性 名 字 或 通过 名 为 X Link 的 名 字 空 间 来 辨认 和 处 理 链接 。 这 
两 种 方法 都 能 很 简单 地 确定 链接 元 素 。 

链接 可 以 分 为 简单 链接 (Simple Links) 和 扩展 链接 (Extended Links), 
简单 链接 功能 相当 于 HTML 中 的 二 A 二 标记 ,但 与 HTML 不 同 的 是 ,在 
XML 中 没有 规定 必须 使 用 二 A 二 之 类 的 元 素 进行 链接 。 这 一 点 很 重要 , 因 
为 这 就 允许 用 户 根据 需要 在 同一 文档 中 加 入 不 同 的 具有 自己 独 有 属性 的 链 
接 元 素 ,充分 体现 了 XML 的 灵活 性 和 可 扩展 性 。(1) 扩 展 链接 是 XLink 为 
支持 多 方向 多 目的 而 提出 的 ,和 简单 链接 不 同 , 它 可 以 有 多 个 目标 。(2) 多 
方向 (multidirectional) 链 接 是 指 对 链接 的 操作 可 以 从 任 一 个 链接 资源 开始 。 
为 支持 多 方向 链接 ,XLink 允许 链接 元 素 本 身 处 于 链接 资源 之 外 。 链 接 资源 
可 以 是 XML 文档 中 的 任何 元 素 , 也 可 以 是 整个 文档 。 由 于 链接 元 素 本 身 处 
于 链接 资源 之 外 ,因此 这 种 链接 可 以 自由 组 织 多 个 文档 之 间 的 关系 。 当 然 
HTML 也 可 以 通过 在 所 有 文档 中 加 二 A 二 来 实现 同样 的 功能 ,但 车 要 对 这 
些 关系 进行 修改 ,HTML 需要 修改 所 有 文档 ,而 外 部 链接 只 要 修改 一 个 文档 
中 的 一 个 链接 元 素 就 可 以 ,显然 要 比 HTML 方便 得 多 。 这 也 是 XLink 链接 
机 制 的 优点 所 在 。 

扩展 链接 组 是 一 种 特殊 的 扩展 链接 , 它 定义 了 一 批 包含 扩展 链接 和 其 
他 扩展 链接 组 的 扩展 链接 文档 ,要 求 处 理 软 件 能 够 同时 处 理 这 批 扩 展 链 接 
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文档 ,而 不 是 一 个 一 个 的 来 处 理 。 对 浏览 器 来 说 ,要 求 最 好 能 够 把 这 些 链接 
的 内 容 同 时 显示 。 扩 展 链接 组 是 一 个 全 新 的 概念 , 它 要 求 应 用 软件 在 处 理 
时 能 够 理解 和 调用 组 中 成 员 之 间 的 关系 。 它 的 实现 仍然 是 个 重点 和 难点 ， 
对 这 个 问题 W3C 组 织 也 还 在 讨论 中 。 


7.1.4 XML Schema 


我 们 知道 DTD 缺乏 对 XML 文档 的 内 容 及 其 语义 的 约束 机 制 ,这 将 限 
制 XML 处 理 器 进行 有 效 的 类 型 检验 ,应 用 软件 开发 者 将 不 得 不 专门 编写 有 
关 类 型 检验 的 代码 。 因 此 有 必要 为 XML 建立 一 个 更 全 面 的 有 效 性 约束 机 
制 ,使 XML 处 理 器 更 好 地 进行 有 效 性 检验 ,这 样 就 产生 了 XML Schema 
Language。 

用 XML Schema Language 书写 的 Schema 文档 定义 了 相应 XML 文档 
的 规则 ,以 约束 其 数据 元 素 及 其 关系 中。 首先 Schema 文档 从 数据 结构 和 数 
据 类 型 两 方面 更 严格 地 约束 相应 XML 文档 , 它 可 以 定义 DTD 所 无 法 定义 
的 规则 ,而 DTD 仅 从 结构 上 对 XML 文档 进行 有 限 的 约束 。 其 次 ,DTD if 
言 有 其 独立 的 语法 形式 ,而 XML Schema Language 实际 上 是 XML 语言 的 
一 个 应 用 (类 似 HTML 5 SGML 语言 的 关系 ), 因 此 Schema 文档 本 身 就 是 
一 个 XML 文档 ,可 以 用 XML 工具 进行 分 析 , 这 样 Schema 文档 也 就 可 以 用 
现 有 的 DTD 语言 加 以 描述 。 它 们 之 间 的 关系 如 图 7-1 所 示 。 

以 结构 请 六 

du = scemsifit E EU m MES 


文档 


图 7-1 Schema 文档 和 XML 文档 放 入 关系 
7.2 建立 XML 应 用 过 程 


虽然 人 们 对 XML 的 某 些 技术 标准 尚 有 争议 ,但 是 人 们 已 普遍 认识 到 
XML 的 作用 及 用 途 ,XML 文档 无 疑 将 成 为 Web 资源 的 重要 组 成 部 分 ,而 且 
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基于 XML 的 文档 资源 使 Web 搜索 引擎 的 智能 化 变 得 容易 起 来 。XML 能 
够 用 来 建立 HTML 所 不 能 达到 的 多 层 Web 应 用 ,特别 是 XML 在 集成 异 构 
数据 源 .本 地 计算 .数据 的 多 种 显示 .Web 应 用 的 互 操 作 和 集成 等 方面 有 重 
要 应 用 。 另 外 ,数据 交换 是 XML 的 最 重要 的 用 途 之 一 ,XML 使 不 同 计算 机 
应 用 系统 之 间 交 换 数据 变 得 容易 起 来 。 这 是 因为 它 的 可 扩展 特性 和 文档 中 
的 元 数据 ,特别 是 XML 在 电子 数据 交换 、Agent 软件 设计 、 元 素 的 交换 等 方 
面 有 重要 应 用 。 
建立 XML 应 用 的 步骤 一 般 包括 以 下 4 个 部 分 ,如 图 7-2 所 示 。 


编辑 器 语法 分 析 和 处 理 程序 。 浏览 内 


检查 结构 的 全 | 显示 数据 和 
理性 和 有 效 性 | “| 接收 数据 


生成 XML 
Schema 


1. 构造 XML 标记 语言 


XML 允许 任何 人 创建 他 自己 的 标记 语言 ,但 是 设计 一 个 好 的 标记 语言 
并 非 易 事 。 首 先 通过 DTD 来 设计 标记 ,其 次 用 自然 语言 解释 这 些 标记 的 含 
义 , 以 便 程序 员 能 正确 处 理 XML 文档 中 的 元 素 。 然 而 ,在 很 多 场合 用 XML 
1.0 中 规定 的 DTD 来 定义 标记 显得 有 些 不 够 ,另外 人 们 也 希望 用 XML X 
档 来 定义 标记 结构 及 约束 ,为 此 要 设计 一 个 XML Schema Language. LJ fi JH 
XML 文档 来 定义 增强 的 DTD。 由 Microsoft 及 其 合作 伙伴 提交 的 XML- 
Data 正 是 这 种 语言 的 一 个 典型 代表 。 


2. 生成 XML 文档 


XML 文档 是 纯 文 本 文件 ,可 以 用 编辑 器 创建 ,如 最 基本 的 编辑 器 
Notepad ,或 用 所 见 即 所 得 的 编辑 器 ,如 Adobe FrameMaker. 或 用 结构 化 的 
编辑 器 ,如 将 XML 文档 显示 为 树 状 结构 的 JUMBO。 

生成 XML 文档 的 数据 来 源 多 种 多 样 ,可 能 来 自 数据 库 也 可 能 来 自 
XML 文档 ,也 可 能 是 Web 上 的 其 他 资源 。XMIL-QL、 SQLX XQL 等 查询 语 
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言及 相关 技术 可 用 来 生成 XML 文档 ,比如 SQLXGQLembedded in XML, 
嵌入 XML 中 的 结构 化 查询 语言 ) 是 一 个 嵌入 XML 中 的 SQL 语言 , 它 为 基 
于 DOM 的 应 用 程序 提供 了 一 个 存 取 关 系数 据 库 的 简便 方法 。SQLX 接受 
一 个 用 XML 描述 的 查询 并 把 他 翻译 成 一 个 JDBC 调用 序列 ,查询 结果 被 转 
换 为 DOM 结构 并 返回 。 


3. 解释 XML 文档 


XML 的 语法 分 析 程 序 读 取 文 档 并 检查 其 中 包含 的 XML 是 否 结构 完 
整 。 如 果 文 档 通过 了 测试 , 则 处 理 程序 就 将 文档 转换 为 元 素 的 树 状 结构 。 
目前 已 有 各 种 语言 的 多 种 解析 器 提供 ,如 IBM 公司 的 XML4 J 和 Sun 公司 
的 Project X 等 。 解 析 有 SAXU! (Simple API for XML 应 用 编程 接口 ) 和 
DOM 两 种 标准 : 

CD 在 需要 详细 了 解 文档 的 结构 ,移动 文档 的 组 成 部 分 及 不 止 一 次 地 使 
用 文档 中 信息 等 情况 下 使 用 DOM; 

(2) 需要 从 一 个 XML 文档 中 抽取 一 些 元 素 、 没 有 很 多 可 用 的 内 存 或 者 
文档 中 信息 等 情况 下 ,应 该 使 用 SAX 标准 。 

DOM 提供 了 更 丰富 的 编程 接口 。 


4. 显示 XML 文档 


显示 XML 文档 有 多 种 途径 。Web 上 的 XML 文档 资源 可 以 直接 显示 
在 XML 使 能 的 浏览 器 中 ; 或 者 使 用 XSL 样式 表 将 XML 文档 转换 为 浏览 
器 能 处 理 的 对 象 , 如 HTML 文档 ; 也 可 以 使 用 程序 对 XML 文档 进行 操作 ， 
再 将 结果 按 任 何 一 种 用 户 要 求 的 方式 显示 。 再 者 XML 技术 也 支持 为 同一 
个 XML 文档 生成 在 多 种 输出 设备 上 的 输出 。 


7.3 XML 的 应 用 领域 


XML 的 简单 性 、 开 放 性 、 可 扩展 性 、 灵 活性 、 自 描述 性 等 特性 ,使 其 在 数 
据 和 信息 管理 数据 交换 、Web 应用、 电子 商务 应 用 集成 等 诸多 领域 有 着 重要 
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用 途 。 


7.3.1 XML 在 异 构 数 据 集成 中 的 应 用 


企业 在 发 展 过 程 中 必然 会 积累 大 量 异 构 数 据 源 , 同 时 ,网 络 的 发 展 又 使 
不 同 企业 不 同 结构 的 信息 交互 成 为 必然 ,如 何以 统一 的 方式 实现 这 些 分 布 
异 构 数据 间 的 相互 识别 、 相 互 转换 集成 ,使 企业 从 巨大 的 数据 资源 中 获取 所 
需 的 信息 ,已 成 为 目前 企业 信息 化 所 要 解决 的 主要 问题 之 一 。 因 此 ,迫切 需 
要 在 异 构 环境 下 建立 统一 的 集成 平台 来 支撑 分 布 异 构 数 据 的 集成 交互 。 该 
集成 平台 可 以 屏蔽 各 种 体系 结构 的 异 构 性 ,提供 访问 异 构 数据 的 服务 ,不 需 
要 改变 底层 数据 的 存储 和 管理 方式 , 即 可 实现 分 布 异 构 数 据 的 互 操 作 ; 同 
时 ,企业 业务 逻辑 可 以 封装 在 集成 平台 的 组 件 中 , 当 业 务 逻辑 发 生变 化 时 ， 

只 需 对 该 组 件 进行 修改 即 可 ,增强 了 系统 的 灵活 性 和 适用 性 。 
只 有 将 这 些 异 构 的 数据 源 集成 起 来 ,提供 给 用 户 一 个 统一 的 视图 ,才能 

从 这 些 资 源 数据 中 获取 人 们 所 需要 的 信息 。 而 为 大 量 各 种 各 样 的 数据 提供 
某 种 统一 的 表示 方法 无 疑 是 解决 问题 的 关键 ,这 就 要 求 能 找到 一 种 标准 、 开 
放 的 数据 结构 来 表示 数据 信息 。XML 的 出 现 无 疑 为 异 构 数据 源 的 集成 带 
来 了 新 的 希望 。 

在 网 络 环境 应 用 中 ,以 企业 的 数据 交换 区 为 核心 ,建立 信息 交换 集成 平 
台 ,作为 数据 传输 通道 5 。 其 中 所 有 企业 应 用 系统 间 需 交流 的 信息 以 XML 
数据 文件 的 形式 存储 在 数据 交换 区 ,进而 实现 不 同 应 用 系统 间 信息 的 发 布 、 
获取 、 协 商 及 交换 等 功能 。 如 图 7-3 所 示 。 并 且 .需要 建立 专用 的 数据 库 统 
一 管理 这 些 XML 数据 文件 。 各 企业 或 各 企业 应 用 系统 间 , 就 是 通过 该 信息 
交换 集成 平台 ,将 可 通过 转换 接口 生成 标准 结构 XML 数据 文件 的 各 异 构 数 
据 源 联系 起 来 ,从 而 实现 数据 的 集成 和 共享 。 

在 该 方案 中 ,系统 逻辑 被 分 为 三 层 : 其 中 数据 库 层 为 通道 内 部 已 经 采用 
的 各 个 企业 提供 的 数据 库 ; 接口 层 主要 是 把 通道 内 部 数据 库 的 数据 经 
理 转化 为 已 定义 格式 的 XML 文档 ,其 处 理 流程 如 图 7-4 所 示 ; XML 
通道 内 部 之 间 、 通 道 与 互联 网 之 间 交 换 的 信息 。 
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数据 交换 区 XML 格 式 
i 


转换 接口 


数据 库 1 数据 库 1 | 数据 库 1 


图 7-3 应 用 集成 框架 


数据 库 A 数据 库 B 数据 库 C 
gencre Errem E 


JDBC 接 吕 
i 接口 
从 数据 库 中 提取 表 及 字段 信息 预定 义 标 记 模板 B 


m------- 


生成 XML 文档 及 相应 Schema 


图 7-4 接口 层 的 处 理 流程 


在 转换 接口 中 ,利用 JDBC 接口 建立 与 数据 库 的 连接 ,然后 从 JDBC 接 
口中 得 到 数据 库 中 表 的 基本 信息 及 其 表 中 各 数据 字段 信息 ,再 与 预定 义 标 
记 模 板结 合生 成 所 需 的 XML 文档 及 相应 的 Schema, 从 而 完成 从 数据 库 中 
导出 数据 为 XML 文档 。 


7.3.2 XML 在 电子 商务 中 的 应 用 


根据 电子 商务 参与 方式 的 不 同 , 电 子 商务 模式 主要 分 为 企业 对 用 户 
(B2C) 和 企业 对 企业 (B2B)。 其 中 B2C 类 电子 商务 主要 应 用 于 商品 的 零售 
业 。 包 括 面向 普通 消费 者 的 网 上 商品 销售 (网 上 购物 ) 和 网 上 电子 银行 业务 
(存款 业务 .取款 业务 .货币 兑换 业务 等 ); B2B 类 电子 商务 主要 用 在 企业 和 
企业 之 间 进 行 的 产品 采购 (包括 企业 和 政府 之 间 的 商品 采购 ) 和 企业 与 银行 
之 间 的 银 企 对 账 等 。 
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现实 中 的 电子 商务 发 展 并 不 完善 , 当 B2C 发 展 到 一 定 程度 ,发 现 B2B 发 
展 的 滞后 性 阻碍 了 电子 商务 的 进一步 发 展 。 而 B2B 的 发 展 又 受到 现 有 电子 
商务 技术 和 标准 的 束缚 。 比 如 EDI 应 用 的 局 限 性 ,行业 缺乏 数据 交换 标准 
等 。 因 此 发 展 B2B 将 是 一 个 战略 性 的 转变 ,企业 网 络 将 向 外 延伸 ,与 外 界 建 
立 广泛 的 交流 合作 。 企 业 不 仅 可 利用 Intranet/Internet 向 广大 用 户 公布 信 
息 为 客户 提供 信息 查询 ,货物 追踪 服务 ,还 能 与 供应 商 \ 销 售 商 \ 服 务 商 等 业 
务 伙 伴随 时 随地 保持 联系 并 展开 合作 。 这 一 阶段 运用 XML 技术 ,可 使 
B2B、XML/EDI. 供 应 链 、 客 户 管理 等 技术 将 得 到 迅速 的 发 展 。 

数据 交换 技术 对 于 电子 商务 起 到 了 推波助澜 的 作用 ,到 目前 为 止 , 它 的 
发 展 大 致 经 历 了 三 个 阶段 

第 一 阶段 ,以 EDI 技术 为 基础 的 电子 数据 交换 阶段 ; 

第 二 阶段 ,以 多 层 结构 WEB 技术 为 基础 的 信息 发 布 阶段 ; 

第 三 阶段 ,以 XML 等 第 二 代 WEB 技术 为 代表 的 数据 交换 阶段 。 

作为 电子 商务 的 数据 交换 技术 ,XML 典型 的 电子 商务 应 用 模式 如 图 7-5 
所 示 , 从 图 中 可 以 看 出 ,以 XML 为 代表 的 电子 商务 的 数据 交换 技术 涉及 XML 
的 生成 、 编 辑 . 解 析 、 转 换 、 浏 览 和 存储 5 。 


电 
im 客户 端 


Web Server Web 应 用 


| / 其 他 应 用 


SQL 引擎 | SQL 引擎 
e 


图 7-5 XML 在 电子 商务 的 应 用 模式 
XML/EDI 的 发 展 有 其 必然 性 ,主要 是 因为 传统 的 EDI 系统 部 署 和 实施 
起 来 太 复杂 ,成 本 也 太 高 。XML/EDI 是 通过 使 用 SMTP 和 FTP 来 进行 数 
据 格式 转换 的 ,在 进行 数据 交换 前 一 般 是 贸易 伙伴 拨号 到 各 自 的 BBS 上 来 
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启动 交换 。 这 种 做 法 会 导致 供应 链 关系 的 混乱 ,并 且 连 接 的 成 本 也 过 于 昂 
贵 。 另 外 ,采用 XML 技术 的 EDI 有 如 下 优势 : 


1. 厂商 的 支持 


Microsoft 正在 建议 XML Data 方案 ,快速 开发 XML 应 用 ; Microsoft 
的 正 浏览 器 以 及 Netscape Web 浏览 器 支持 XML; Sun 公司 考虑 将 此 标准 
作为 用 于 Java 的 可 移植 数据 语言 。 


2. EDI 企业 的 机 会 均等 


传统 EDI 对 较 大 的 公司 有 利 , 他 们 规定 商务 模式 和 标准 ,可 以 享受 EDI 
带 来 的 全 部 好 处 ,而 中 小 企业 被 动 地 接受 EDI, 与 实现 EDI 方 ( 较 大 公司 ) 的 
机 会 是 不 均等 的 。XML/EDI 则 不 同 , 它 能 让 所 有 的 参与 者 都 从 EDI 中 得 到 
好 处 ,因此 它 是 对 称 的 EDI。XMLVEDI 将 为 中 小 企业 提供 从 事 电 子 商 务 的 
机 会 ,从 而 扩大 B2B 电子 商务 的 规模 。 


3. 传统 问题 的 解决 


传统 EDI 过 于 局 限于 古板 严格 的 标准 。 而 采用 XML 实现 EDI, KAR 
业 规 则 与 数据 分 离开 来 ,各 个 企业 可 以 灵活 的 开发 适合 自己 的 商务 应 用 ,能 
集中 于 数据 内 容 和 结构 的 交换 运用 各 自 的 商业 规则 。 许 多 问题 就 迎 刃 
而 解 。 


4. Web 风格 的 EDI 


XML 所 采用 的 标准 技术 已 被 证 明 最 适合 Web 开发 ,应 用 于 Internet 
EDI, 则 可 以 得 到 真正 Web 风格 的 EDI 一 XML/EDI。XML 支持 结构 化 的 
数据 ,可 以 更 详细 地 定义 某 个 数据 对 象 的 数据 结构 ,这 种 XML 数据 很 容易 
按 关 键 字 进 行 排序 ,使 查询 更 为 方便 。 

虽然 XML 未 必 能 解决 传统 EDI 的 所 有 问题 ,但 专家 们 正 积 极地 将 它 应 
用 到 EDI 的 数据 管理 和 数据 库 管理 中 。 如 今 XML 技术 已 经 开始 抢占 B2B 
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市 场 ,可 望 取代 传统 的 EDI 技术 。 

B2B 的 电子 商务 过 程 是 一 个 将 买方 .卖方 以 及 服务 于 他 们 的 中 间 商 (如 
金融 机 构 ) 之 间 的 信息 交换 和 交易 行为 集成 到 一 起 的 电子 运作 方式 。 基 于 
INTERNET 的 B2B 电子 商务 显然 和 在 私有 网 络 或 者 增值 网 上 运行 的 传统 
EDI 有 相当 的 区 别 。 其 中 最 主要 的 原因 是 将 一 个 小 范围 的 .局 部 的 、 专 一 
的 .昂贵 的 商务 概念 推广 到 一 个 开放 的 、 公 众 化 的 、 普 适 的 .廉价 的 系统 当 
中 。 为 了 适应 这 种 转变 ,在 INTERNET 上 实现 B2B 电子 商务 必须 具备 一 
定 的 基础 ,其 内 在 需求 主要 表现 在 信息 的 标准 化 和 网 络 交易 数据 集成 技术 。 
而 XML 的 B2B 电子 商务 很 好 地 解决 了 这 一 难题 。 

(1) XML 若干 良好 的 特性 ,使 它 成 为 B2B 电子 商务 的 国际 性 语言 。 以 
Internet 通讯 协定 (如 HTTP) 为 基础 的 XML ,不 但 其 部 署 的 方式 较为 简易 ， 
而 且 成 本 更 为 低廉 ,所 以 是 没有 信息 部 门 的 中 小 企业 在 部 署 EDI 之 时 最 佳 
的 选择 。 可 以 肯定 ,XML 将 成 为 企业 数据 集成 的 最 佳 方法 。 

(2) XML 将 改变 企业 与 企业 之 间 通 信和 方式, 并 将 成 为 企业 数据 集成 的 
实际 标准 。 随 着 企业 与 企业 之 间 电 子 商 务 的 发 展 ,需要 有 进行 采购 单 、 零 部 
件 、 商 品 信息 等 方面 的 信息 描述 和 交换 。 早 期 的 几 种 技术 ,比如 CORBA, 
EJB、COM 等 ,都 没有 能 够 提供 在 多 个 公司 的 计算 机 系统 之 间 共 享 数据 的 简 
易 方 法 。 

(3) XML 将 能 取代 传统 的 EDI 系统 ,使 用 XML 小 公司 也 可 以 通过 来 
回 发 送 采 购 单 ,进行 电子 商务 活动 。 利 用 XML 技术 将 改变 传统 的 价值 链 ， 
从 而 实现 供应 链 的 管理 。 

(4) 实现 B2B 电子 商务 尤为 重要 的 是 异 构 系 统 间 的 连接 ,在 进行 企业 
间 的 联合 .兼并 时 ,最 重要 的 课题 是 企业 间 系 统 的 集成 。 最 近 涌现 出 了 一 种 
称 为 “EAICEnterprise Application Integration: 企业 应 用 和 集成)” 的 软件 , 作 
为 能 平滑 、 廉 价 实现 系统 间 连 接 的 技术 , 它 将 和 XML 共同 支撑 B2B 电子 商 
务 强劲 .迅猛 扩展 的 势头 。 


7.3.3 XML 在 电子 政务 中 的 应 用 


数据 是 电子 政务 系统 建设 的 核心 ,应 成 为 独立 于 各 个 系统 、 不 断 重复 使 
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用 、 能 长 期 保留 并 在 各 类 政府 业务 系统 之 间 实 现 共享 、 交 换 和 传递 的 信息 资 


源 。 信 息 显示 技术 就 是 解决 这 些 信息 的 规范 化 问题 ,可 以 为 任何 系统 、 任 何 
平台 提供 通用 的 数据 内 容 显 示 、 定 位 和 查询 方法 。 利 用 XML 技术 可 以 解决 
电子 政务 数据 显示 文档 定位 文档 查询 等 基本 问题 ,为 电子 政务 应 用 系统 
提供 信息 表示 、 消 息 服务 、 事 务 处 理 等 功能 ,便于 电子 政务 应 用 系统 对 信息 
进行 解析 、 提 取 、 传 递交 换 。 

基于 XML 技术 的 电子 政务 应 用 标准 体系 四 见 表 7-1。 


表 7-1 基于 XML 技术 的 电子 政务 应 用 标准 体系 


电子 政务 应 用 功能 作用 适用 XML 技术 标准 
数据 访问 UTD. SCHEMMA, DOM, SAXXSLT, XPATH , XQUERY, 
XPointer, XLINK,XQL 
事务 处 理 | BTP,WS-Coordination, WS-Transaction 
应 用 支撑 层 流程 控制 WPDL、 XPDL, PM WSFL, BPELAWS, XLANG, 
ebXMLBPSS,WSCI 
信息 交换 | DTD,XSLT,SCHEMMA,WSDL,XML-RPC,DOM.,SAX 
目录 服务 | DSML 
DTD, WSFL, SCHEMMA, WPDL, BPML, XSLT, 
公文 处 理 | XPATH,Xpointer,XQUERY,XLINK,XQL,DOM,SAX, 
BTP,WS-Coordination, WS- Transaction, XLANG,XPDL 
应 用 层 业务 处 理 SMS BPELAWS, BTP,  WS-Coo-rdination, 
WS-Transaction 
信息 发 布 | XHTML,RDF,RSS,CSS, XSLT, WML,P3P 
信息 采集 | DTD.SCHEMA,Xforms, XSLT,SOAP,XMLSECURIT Y 
服务 调用 UDDI SOAP、WSDL、WSCL 
信息 安全 | XMLSignature, XMLEncryption,XKMS, XACML,SAML 
系统 管理 DTD, SCHEMA, XML-RPC, XLANK, XPATH, Xpointer, XSL, 


XQUERY,DOM,SAX,XQL,BTP,WS-Coordination, WS-Transaction 


电子 政务 系统 除了 涉及 数据 资源 的 描述 及 显示 的 XML 技术 外 ,还 拥有 
与 其 他 应 用 不 同 的 安全 保护 方法 技术 。 政 务 系统 涉及 电子 公文 等 大 量 的 政 
务 数据 ,有 不 同 级 别 的 机 密 性 和 完整 性 要 求 ,要 保证 数据 在 存储 、 处 理 和 传 
输 时 不 会 泄露 和 不 被 自 改 ; 有 互联 互通 和 业务 协同 的 要 求 , 要 保证 电子 政 
务 应 用 系统 能 够 确认 访问 用 户 的 合法 性 。 安 全 服务 是 在 信息 安全 基础 设 
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施 上 跨越 电子 政务 各 应 用 系统 和 层次 ,为 电子 政务 应 用 提供 安全 可 信服 
务 , 主 要 涉及 鉴别 与 身份 认证 ,授权 与 访问 控制 .数据 加 密 、 数 字 签 名 审计 
与 日 志 等 内 容 。 基 于 XML 的 电子 政务 安全 技术 包括 XML Signature、 
XML Encryption, XKMS (XML Key Management Specification), XACML 
(eXtensible Access Control Markup Language), SAML (Security Assertion 
Markup Language) 等 技术 规范 ,主要 有 授权 (确保 身份 不 被 假冒 )、 完 整 性 
(确保 信息 不 被 算 改 )、 隐 蔽 性 (确保 文档 不 被 穷 取 ) 不 可 否认 性 (确保 文档 
的 不 可 和 否认) 阻塞 预防 (确保 高 复杂 度 的 操作 ) 等 功能 和 作用 。 


1. XML Signature 签名 方法 


XML 签名 用 来 确保 文档 的 完整 性 .授权 性 和 不 可 否认 性 。XML 
Signature 允许 特定 的 人 按 特定 的 顺序 对 文档 的 特定 部 分 进行 签名 ,允许 对 
已 经 加 密 过 的 其 他 部 分 进行 进一步 加 密 。 需 要 注意 的 是 : 由 于 数字 签名 使 
用 了 特定 专用 密 钥 来 认证 , 当 签名 人 以 纯 文 本 形式 查看 文档 时 ,可 能 对 其 他 
已 经 加 密 过 的 信息 进行 了 解密 。XML 的 规范 性 特点 要 求 : 如 果 对 应 用 了 密 
码 散 列 算法 的 信息 进行 最 轻微 的 更 改 , 将 会 产生 不 同 的 值 。 这 一 点 为 信息 
的 完整 性 提供 了 信任 ,但 也 可 能 会 产生 逻辑 结构 相同 、 确 切 文本 不 同 的 两 个 
XML 文档 。XML 规范 描述 了 一 种 生成 文档 的 范式 ,用 来 解释 具有 同一 范 
式 的 两 个 文档 。 因 此 ,在 生成 签名 和 验证 计算 时 ,要 在 范式 上 进行 信息 摘 
要 ,如 果 摘 要 匹配 ,即使 文本 形式 不 同 ,也 认为 范式 匹配 。 签 名 与 签名 对 象 
或 文档 是 分 离 的 ,本 身 并 不 参与 计算 或 验证 。 


2. XML Encryption 加 密 方法 


XML Encryption 用 来 确保 文档 中 敏感 信息 的 隐藏 性 。XML Encryption 
允许 用 不 同 的 密 钥 ,根据 业务 的 需求 对 文档 中 敏感 的 信息 进行 加 密 , 允 
许 将 相同 的 文档 发 送 给 不 同 的 接收 者 ,而 接收 者 也 只 能 将 与 自己 相关 的 
信息 进行 解密 。XML 加 密语 法 的 核心 元 素 是 Encrypted Data 元 素 , 包 含 
EncryptionMethod、Keyinfo、Cipher Data 三 个 子 元 素 ; Encryption Method 
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定义 了 加 密 的 算法 ,如 AES、3DES、RSA 、RCA 等 ; Keylnfo 提供 或 指明 了 加 
密 密 钥 ; Cipher Data 提供 了 密 文 。 对 任意 数据 加 密 时 ,Encrypted Data 元 
素 成 为 新 XML 文档 的 根 或 成 为 一 个 子 代 元 素 ; 对 整个 XML 文档 加 密 时 ， 
Encrypted Data 元 素 成 为 新 XML 文档 的 根 ; 对 元 素 或 元 素 内 容 加 密 时 ， 
Encrypted Data 元 素 替 换 XML 文档 加 密 版 本 中 的 该 元 素 或 内 容 。 


3. XKMS 注册 方法 


XKMS 协议 定义 了 XML 签名 协议 中 所 需 公 共 密 钥 的 分 发 和 注册 方法 ， 
由 X-KRSSCXML Key Registration Service Specification) 和 X-KISSCXML 
Key Information Service Specification) 两 部 分 组 成 。X-KRSS 是 对 密 钥 对 的 
拥有 者 进行 注册 的 协议 ,已 经 注册 的 密 钥 对 用 来 通过 X-KISS 协议 ; X-KISS 
是 对 XML 签名 XML 加 密 以 及 其 他 密 钥 信 息 进行 处 理 的 协议 。 


4. SAML 授权 方法 


SAML 使 用 OASIS 维护 的 认证 ,授权 决定 和 属性 三 种 “断言 模式 ” 语 
句 , 来 决定 谁 是 请 求 者 .请求 什 么 .是 否 接收 请 求 , 并 处 理 实际 授权 和 认证 请 
求 和 反馈 信息 的 实际 交换 。 一 个 SAML 请 求 包含 了 认证 用 户 名 和 密码 ,有 
关 请 求 发 起 方 的 详细 信息 ,这些 信息 按 所 设计 的 进程 进行 处 理 ,并 用 XAML 
来 决定 是 否 接 收 对 XML 资源 的 访问 。SAML 最 主要 的 特点 是 采用 点 到 点 
的 信任 模式 ,实现 了 单 点 登录 多 个 系统 的 可 能 性 。 


5. XACML 控制 方法 


XACML 与 SAML 提供 了 一 种 标准 的 存 取 控制 决策 方法 ,XACML 接 
收 到 一 个 SAML 请 求 时 ,根据 规则 集合 、 策 略 来 决定 是 否 允 许 对 某 个 特定 
XML 文档 的 访问 。XML 文档 中 的 tag 所 包含 的 XPointer 和 Xpath 表达 式 
将 通知 分 析 器 评估 XACML 策略 ,评估 后 由 SAML 授权 作 断 言 处 理 。 


7.3.4 XML 在 网 络 管理 中 的 应 用 


随 着 互联 网 的 飞速 发 展 ,网 络 规 模 不 断 扩大 ,网 络 复杂 性 不 断 增 加 ,对 
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网 络 管理 的 要 求 也 越 来 越 高 。 传 统 的 网 络 管理 是 基于 IETF 在 1988 年 提出 
的 SNMP 协议 及 其 相关 规范 。SNMP 以 其 简单 和 实用 性 已 经 成 为 事实 上 的 
工业 标准 ,形成 了 当前 普遍 基于 SNMP 协议 的 网 络 管理 框架 。 但 是 ,由 于 
SNMP 协议 本 身 固 有 的 问题 ,这 一 框架 在 信息 模型 .协议 安全 性 ,传输 协议 
等 方面 有 许多 无 法 克服 的 缺陷 。 因 此 ,SNMP 已 不 能 对 日 益 复 杂 的 现代 化 
网 络 进行 有 效 的 管理 ,在 配置 管理 方面 的 缺陷 尤为 明显 ,人 们 迫切 需要 新 的 
网 络 管理 模型 。 

可 扩展 标记 语言 XML 的 出 现 为 构建 新 的 网 络 管理 模型 提供 了 契机 。 
目前 学 术 界 对 于 XML 技术 在 网 络 管理 中 应 用 的 研究 大 致 可 以 分 为 三 类 。 

第 一 类 是 XML 和 SNMP 集成 管理 , 如 J. P. Martin-Flatin 提出 的 
SNMP MIB 到 XML DTD 文档 的 转换 模型 中 ,F，Strauss 开发 的 "libsmi" 工 
ĦU; Avaya Labs 用 来 读 写 SNMP agent 中 的 管理 信息 的 XML 接口 5 。 

第 二 类 是 基于 XML 的 管理 架构 ,如 J. P. Martin-Flatin 在 文献 [9] 中 提 
出 的 WIMA 和 Hong 等 提出 的 基于 XML 和 HTTP 协议 的 XML-based 
Management Ag fU? 。 

第 三 类 是 采用 Web Services 技术 来 进行 基于 XML 的 网 络 管理 ,这 方面 
的 代表 是 IRTF 的 NMRG 和 OASIS 这 两 个 组 织 。 

文献 [13] 提 出 了 一 个 XML 到 其 他 协议 的 转换 网 关 方案 ,该 方案 既 能 管 
理 传统 的 基于 SNMP 代理 的 网 络 设备 ,又 能 管理 基于 CLI(Telnet/SSH) 的 
设备 ,基于 这 一 网 关 实 现 了 一 个 既 能 监控 网 络 又 能 配置 网 络 的 配置 管理 

XML 协议 转换 网 关 的 主要 任务 是 : 把 HTTP 协议 传输 的 XML 请 求 转 
换 为 相应 的 SNMP 操作 或 者 CLI 命令 ,并 把 得 到 的 响应 也 编码 成 XML X 
档 , 通 过 HTTP 协议 返回 给 请 求 者 。 一 方面 ,网 关 接 受 包含 XPath 表达 式 
的 HTTP GET 请 求 , 对 请 求 进行 解释 ,生成 SNMP 请 求 发 送 给 设备 。 在 收 
到 响应 之 后 ,应 用 XPath 表达 式 进 行 过 滤 , 得 到 请 求 者 需要 的 数据 ; 另 一 方 
面 ,请 求 者 以 HTTP POST 方式 向 网 关 发 送 配 置 请 求 的 XML 文档 ,网 关 将 
请 求 翻译 CLI 命令 ,通过 Telnet/SSH 协议 登录 到 远程 设备 上 执行 ,并 把 响 


208 本 体 建 模 与 语义 Web 知识 发 现 


应 编码 成 XML 文档 返回 给 请 求 者 。 网 关 的 结构 及 数据 流程 如 图 7-6 所 示 ， 
具体 实现 参阅 文献 [13] 。 


Request 
(SNMP/ 
Request UDP) 
(XML/ XML 处 理 器 | SNMP | — — —"| SNMP 
Rr, | zl VUL. S — — Agents 
Response 
基于 (SNMP/ 
XML 的 HTTP UDP) 
网 络 管 | Response | Server Request 
理应 用 | (XML/ (CLI/Telnet, 
HTTP) sst) | 
Telnet/ 
I-—],S8H LL—— ————] CU 
协议 栈 | Response 
(CLI/Telnet, 
SSH) 


px 
XML 
Repository 


图 7-6 系统 架构 及 数据 流程 
7.4 信息 资源 的 表述 和 发 布 技术 


2007 4E 5 H W3C 关联 开放 数据 项 目 正 式 起 动 ,其 目标 是 号 召 人 们 将 现 
有 的 数据 公布 成 关联 数据 ,并 将 不 同 数据 互联 起 来 。 关 联 数据 提出 的 目的 
是 构建 一 个 计算 机 能 理解 的 具有 结构 化 和 富 含 语义 的 数据 网 络 , 而 不 仅仅 
是 人 能 读 懂 的 文档 网 络 , 以 便于 在 此 基础 之 上 构建 更 智能 的 应 用 。 目 前 , 关 
联 数据 逐渐 得 到 学 术 界 、 工 业界 、 政 府 部 门 的 广泛 关注 。 自 2006 年 以 来 , 关 
联 数据 应 用 已 扩展 到 网 络 通用 本 体 、 大 型 传媒 、 商 业 企业 、 政 府 部 门 、 图 书 
馆 、 医 药学 .农业 信息 等 众多 领域 。 目 前 比较 知名 的 大 型 应 用 有 美国 国会 图 
书馆 及 其 主题 标 目 (LCSH) ,瑞典 国家 图 书馆 LIBRIS 国家 书目 .英国 广播 公 
司 (BBC) 的 关联 数据 应 用 、 纽 约 时 报 等 。 国 内 的 关联 数据 研究 尚 处 于 初级 阶 
段 , 大 型 应 用 较 少 ,但 也 出 现 了 一 些 较 好 的 实际 应 用 项 目 , 比 如 宁波 市 数字 
图 书馆 服务 外 包产 业 信息 门户 (SOIP)。 
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7.4.1 关联 数据 的 基本 原则 和 特征 


关联 数据 的 概念 为 WWW 的 发 明 者 ,被 誉 为 互联 网 之 父 的 Tim 
Berners-Lee 于 2006 年 在 (关联 数据 笔记 》 中 首次 提出 ,在 该 文中 他 分 析 了 
Web 的 发 展 与 演变 ,提出 了 发 展 数据 网 络 的 思想 ,而 数据 网 络 的 核心 和 关键 
则 是 关联 数据 。2009 年 在 TED 大 会 上 ,他 提出 关联 数据 就 是 一 箱 箱 数据 ， 
当 通 过 开放 标准 关联 在 一 起 时 ,从 中 可 以 萌发 出 很 多 新 事物 和 新 应 用 。 有 
的 学 者 侧重 对 语义 的 认识 ,如 白 海燕 认为 关联 数据 是 用 来 在 语义 网 中 使 用 
URI 和 RDF 发 布 . 分 享 .连接 各 类 资源 ,强调 建立 已 有 信息 的 语义 标注 和 实 
现 数据 之 间 的 关联 ,具有 框架 简洁 、 标 准 化 .自助 化 .去 中 心 化 、 低 成 本 的 特 
点 ,为 构建 人 机 理解 的 数据 网 络 ,提供 了 根本 性 的 保障 ,为 实现 语义 网 远景 
奠定 了 坚实 的 基础 。Boutin G 也 持 同 样 的 观点 ,认为 关联 数据 是 提供 了 关 
联结 构 化 数据 的 新 媒介 ,可 以 更 好 地 让 机 器 读 取 这 些 数据 。 还 有 一 些 学 者 
则 认为 关联 数据 是 一 类 实践 活动 。 维 基 百 科 的 定义 : 关联 数据 是 一 种 推荐 
的 最 佳 实践 ,用 来 在 语义 网 中 使 用 URI 和 RDF 发 布 .分 享 、 连 接 各 类 数据 、 
信息 和 知识 。Christian Bizer 也 认为 关联 数据 是 利用 网 络 关联 不 同类 型 数 
据 的 实践 P9 。 


1. 关联 数据 的 基本 原则 


Berners-Lee 提出 的 关联 数据 遵循 四 个 方面 的 基本 原则 ,获得 了 业界 的 
广泛 认同 : 使 用 URI 作为 任何 事物 的 标识 名 称 ; OWH HTTP URI 让 任 
何人 都 可 以 访问 这 些 标 识 名 称 ; @ 当 有 人 访问 某 个 标识 名 称 时 ,提供 有 用 的 
信息 (采用 RDF、SPARQL 标准 ) ; @ 尽 可 能 提供 相关 的 URI 链接 ,以 使 人 
们 可 以 发 现 更 多 的 信息 。 

IBM CSDL Web2. 0 开发 人 员 张 静 、 马 春 娥 经 过 分 析 也 提出 了 构建 和 实 
现 关 联 数据 的 三 原则 : 资源 。 发 布 一 个 领域 的 数据 之 前 ,要 确定 发 布 的 资 
源 是 什么 。 只 要 你 认为 是 有 意义 的 ,有 被 引用 必要 的 ,都 可 以 称 为 资源 。 
@ 资 源 标 识 。 任 何 一 个 资源 都 是 用 HTTP UR 来 标识 ,之 所 以 要 用 HTTP 
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URI 来 标识 ,是 希望 数据 能 够 通过 HTTP 协议 访问 .真正 实现 基于 Web 的 
访问 与 互联 。@ 资 源 描述 。 资 源 可 以 有 多 种 描述 .如 HTML, XML, RDF 以 
及 JPEG. 文档 Web 的 文档 主要 通过 HTML 格式 来 表示 ,数据 Web 的 数 
据 主 要 通过 RDF 格式 来 表示 。RDF 将 一 个 资源 描述 成 一 组 三 元 组 (主语 、 


谓语 宾语 )55 。 
2. 关联 数据 的 特征 


关联 数据 是 在 网 络 上 使 用 资源 描述 框架 (RDF ) 作 为 数据 的 模型 ,运用 
统一 的 资源 标识 符 CURI) 作为 数据 的 标识 ,通过 HTTP 协议 协调 规范 “ 数 
据 ”, 从 而 实现 在 网 络 上 的 发 布 。 这 样 发 布 的 数据 揭示 了 数据 间 的 相互 联 
系 ,提供 了 计算 机 可 以 理解 的 词义 信息 D9 。 

关联 数据 可 以 通过 数据 间 的 链接 形成 关联 的 数据 网 络 。 关 联 数据 的 数 
据 之 间 的 链接 多 种 多 样 , 既 能 在 来 源 不 同 的 数据 库 之 间 建 立 链接 ,又 能 在 不 
能 相互 操作 的 数据 之 间 建 立 链接 。 而 且 ,关联 数 据 既 能 连接 其 他 数据 ,也 能 
被 其 他 数据 所 连接 。 因 此 ,具有 连接 的 多 样 性 和 广泛 性 。 

关联 数据 网 络 有 异 于 超 文本 网 络 ,其 相同 之 处 在 于 都 是 链接 ,不 同 之 处 
在 于 超 文本 网 络 是 把 HTML 文件 通过 超 链 接连 接 在 一 起 ,关联 数据 不 是 单 
纯 地 链接 这 些 文件 ,而 是 采用 RDF ,建立 关联 数据 网 络 ,通过 数据 描述 ,链接 
世界 上 所 有 事物 的 数据 网 络 。 


7.4.2 关联 数据 的 发 布 


发 布 关联 数据 的 途径 往往 因 资 源 内容 的 特征 被 分 成 三 种 2 : 如 果 数 据 
量 很 小 ( 几 百 条 RDF 三 元 组 或 者 更 少 ) ,可 以 直接 采用 静态 的 RDF 文件 ( 静 
态 发 布 ) ; 如 果 数 据 量 很 大 , 则 需要 将 它们 放 进 RDF 库 中 ,并 选择 Pubby 服 
务 器 作为 关联 数据 服务 的 前 端 ; 如 果 数 据 的 更 新 频率 很 大 ,就 需要 引入 更 新 
机 制 ,或 者 在 请 求 数据 的 时 候 再 根据 原始 数据 在 线 生 成 (on-the-fly 
translation) RDF。 其 中 的 第 三 种 方式 , 即 在 线 映射 ,往往 会 借助 于 一 些 映射 
工具 中 ,如 :; D2RQ 平 台 、Virtuoso RDF Views、Sparglify 等 。 此 外 ,W3C 还 
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有 一 个 RDB2RDF 工作 组 ,从事 R2RML 映射 语言 的 研究 。 

很 多 传统 的 信息 都 借助 于 关系 型 数据 库 进行 存储 ,另外 由 于 D2RQ 的 
使 用 简单 方便 ,因此 D2RQ 在 很 多 场合 都 得 到 了 应 用 。 作 为 关联 数据 发 布 
的 标准 教程 ,文献 “How to Publish Linked Data on the Web” 就 重点 推荐 了 
D2RQ, 并 介绍 了 它 的 软件 架构 和 使 用 方法 。D2RQ 平 台 包 括 D2R Engine, 
D2RServer 以 及 D2RQ 映射 语言 ,基于 D2R Server, 目 前 已 经 有 很 多 数据 源 
对 外 开放 了 关联 数据 的 接口 ( 即 变 成 了 关联 数据 的 数据 集 ), 如 DBLP 书目 
PECIA Factbook、 欧 洲 国家 地 区 统计 信息 库 等 。 

采用 D2R Server 将 关系 型 数据 发 布 成 关联 数据 ,软件 操作 流程 如 下 : 

CD 准备 Java 环境 ,下 载 某 个 版 本 的 D2R Server, 如 : d2rq-0. 8; 

(2) 执行 generate-mapping 工具 ,连接 至 数据 库 , 生 成 映射 文件 ,如 : 
mapping. n3; 

(3) 根据 发 布 需求 ,在 以 上 生成 的 mapping. n3 文件 基础 上 进行 修改 与 
完善 ; 

(4) 以 mapping. n3 为 参数 ,启动 d2r-server。 

经 过 以 上 简单 四 步 ,D2R Server 即 可 提供 关联 数据 的 访问 服务 ,这 些 服 
务 包括 : 用 户 可 以 浏览 某 类 实体 的 列表 (directory) ,并 通过 每 个 URI 访问 到 
某 一 条 实体 的 网 页 描述 和 RDF 描述 。 同 时 .D2RServer 还 提供 了 SPARQL 
查询 接口 ,并 提供 了 一 个 Web 化 的 执行 界面 (SPARQL Explorer) ,用 户 可 
以 在 该 界面 输入 SPARQL 查询 语句 ,并 查看 到 执行 结果 。 

作为 知识 的 不 同 载体 ,科技 文献 与 科学 数据 无 论 在 内 容 上 还 是 在 语义 
描述 模型 上 都 有 各 自 的 特点 ,另外 科学 数据 还 带 有 强烈 的 学 科 领 域 特征 。 
文献 [18] 以 科技 文献 和 科学 数据 的 发 布 为 例 ,研究 了 基于 D2R Server 发 布 
关联 数据 的 流程 和 其 中 的 关键 问题 ,值得 参阅 。 

仅 从 技术 上 看 ,关联 数据 的 实现 并 不 复杂 。 但 是 ,要 让 当前 互联 网 上 海 
量 的 基于 超 链 接 的 “文档 的 网 络 ” 转 换 成 基于 关联 数据 的 “数据 的 网 络 ”, 是 
一 项 浩大 的 工程 ,需要 简便 可 行 的 模式 和 方法 。 众 多 的 内 容 管 理 系 统 ( 简 称 
CMS, 下 同 ) 是 目前 网 络 资源 发 布 的 主力 ,其 中 Drupal 是 一 款 技术 领先 、 用 
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户 众 多 、 特 色 鲜 明 的 开源 软件 , 它 基 于 完全 开源 的 XAMPP 架构 ,具有 高 度 
模块 化 优良 的 用 户 友 好 性 等 特点 ,并 拥有 庞大 的 网 络 社区 支持 ,成 为 
Web2. 0 EHARA EZER CMS 中 的 佼佼 者 。 难 能 可 贵 的 是 , 它 很 早 就 开始 了 
对 语义 网 技术 的 支持 ,使 得 它 在 新 时 代 得 以 引领 潮流 。2009 年 ,Drupal 已 形 
成 了 一 整套 支持 关联 数据 发 布 (publish) 和 消费 (consume) 的 完整 机 制 P9 。 


7.5 基于 关联 数据 的 知识 发 现 模型 


知识 发 现 是 人 类 的 主要 知识 活动 之 一 ,当前 的 知识 发 现 活动 也 越 来 越 
多 地 基于 网 络 数 据 资源 环境 。 在 网 络 资源 环境 向 “语义 网 ”方向 前 进 ,并 已 
经 进入 “关联 的 "数据 网 络 时 代 的 时 候 , 知 识 发 现 必然 面临 着 新 的 机 会 和 挑 
战 ; 与 此 同时 ,知识 发 现 也 是 关联 数据 网 络 发 展 和 完善 的 主要 动力 。 因 此 ， 
基于 关联 数据 的 知识 发 现 是 以 关联 数据 网 络 资源 环境 为 基础 ,发 挥 关联 数 
据 带 来 的 优势 和 潜力 ,发 现 可 理解 .可 用 的 新 知识 所 必要 和 必需 解决 的 
问题 。 

从 知识 发 现 研究 角度 来 说 ,基于 关联 数据 的 知识 发 现 是 知识 发 现 的 特 
殊 案例 。 广 义 的 知识 发 现 关注 于 从 数据 中 发 现 知识 的 整个 过 程 ,包括 数据 
是 如 何 存储 和 访问 ,算法 如 何 自动 处 理 数 据 并 且 在 大 量 数据 的 环境 下 有 效 
运行 ,结果 如 何 进行 解释 和 可 视 化 ,以 及 整个 过 程 中 人 机 交互 如 何 建 模 和 支 
持 。 关 联 数据 本 身 是 应 用 新 方法 收集 、 组 织 和 存储 的 数据 资源 。 虽 然 关 联 
数据 与 以 往 的 关系 型 数据 库 在 数据 结构 .关系 类 型 、 结 构 化 程度 .语义 等 方 
面 存在 很 多 不 同 , 但 区 别 于 文件 网 络 (Web of Document) ,关联 数据 的 目标 
和 特征 就 是 提供 一 个 全 球 共享 的 超级 数据 库 ( 见 图 7-7)。 因 此 基于 关联 数 
据 的 知识 发 现 活动 应 当 是 在 遵守 数据 库 知识 发 现 的 一 般 规 律 的 同时 ,考虑 
数据 组 织 方式 .应 用 技术 ,资源 环境 的 变化 特殊 性 的 特殊 案例 。 

从 关联 数据 的 应 用 角度 来 说 ,知识 发 现 是 关联 数据 的 一 种 关键 和 高 层 
的 应 用 。 关 联 数据 的 广泛 应 用 和 数据 网 络 的 飞速 发 展 ,已 经 宣布 了 面向 语 
义 网 的 信息 收集 .组织 .存储 和 访问 的 新 时 代 的 到 来 。 以 关联 数据 为 基础 的 
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数据 对 象 、 网 络 环境 .语义 关系 模型 . 存 取 标准 (HTTP URD 和 网 络 应 用 ( 浏 
览 .搜索 等 ) 为 更 多 的 网 络 应 用 提供 了 新 的 可 能 。 如 何 根据 关联 数据 的 特 
点 ,发 挥 关联 数据 的 优势 ,帮助 人 们 更 容易 .更 准确 .更 全 面 . 更 高 效 地 发 现 
所 需要 的 信息 ,最 终 获 取 新 颖 ,有 用 并 且 可 用 的 知识 是 关联 数据 应 用 研究 和 
开发 的 主要 方向 ,因此 ,基于 关联 数据 的 知识 发 现 是 关联 数据 的 关键 应 用 和 
研究 方向 之 一 。 


7.5.1 基于 关联 数据 的 知识 发 现 的 潜力 和 特征 


关联 数据 提供 了 一 个 更 通用 的 ,更 灵活 的 出 版 范式 , 它 使 得 数据 消费 者 
更 容易 发 现 和 整合 来 自 大 量 的 数据 源 的 数据 ,关联 数据 提供 以 下 的 机 制 ( 见 
图 7-8)。 


LOD 云 
pore ] a EE ] 


应 用 层 (传递 与 处 理 ) 应 用 层 (传递 与 处 理 ) 
表示 层 (描述 ) | 表示 层 (描述 ) 


1 

1 

| 

Mt 
概念 层 (抽象 ) ! 

1 

1 

1 

1 


概念 层 (抽象 ) 
知识 层 nm 


知识 源 


知识 源 集成 
关联 数据 
图 7-8 关联 数据 的 知识 源 集成 能 力 

统一 的 数据 模型 : 关联 数据 依赖 RDF 作为 一 个 单独 的 、 统 一 的 数据 模 
型 。 通 过 提供 实体 的 全 球 统一 标识 符 并 且 通 过 允许 不 同 的 规范 格式 并 行 地 
用 于 数据 表示 ,RDF 数据 模型 已 经 特殊 地 为 全 球 数据 共享 的 案例 设计 。 相 
反 , 其 他 的 网 络 数据 发 布 方 法 依赖 于 大 量 的 不 同 数据 模型 ,并 且 导 致 了 在 整 
合 处 理 中 异 质 性 桥接 的 需求 。 

标准 的 数据 访问 机 制 : 关联 数据 承诺 自身 使 用 HTTP 协议 的 特殊 模 
式 。 这 一 协议 允许 数据 源 使 用 通用 的 数据 浏览 器 访问 ,并 且 人 允许 完整 的 数 
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据 空间 使 用 搜索 引擎 被 仆 行 。 相 反 , Web APIs 使 用 不 同 所 有 者 的 界面 
Vn. 

基于 超 链 接 的 数据 发 现 : 通过 使 用 URIs 作为 全 球 实体 标识 符 ,关联 数 
据 允 许 超 链接 被 设置 在 不 同 数据 源 的 实体 之 间 。 这 些 数据 连接 所 有 关联 数 
据 到 一 个 单独 的 全 球 数据 空间 ,并 且 人 允许 关联 数据 应 用 程序 在 运行 时 去 发 
现 新 的 数据 源 。 相 反 , Web APIs 和 使 用 所 有 权 形 式 的 数据 dumps 仍然 是 孤 
立 的 数据 岛屿 。 

自 描述 数据 : 关联 数据 依靠 共享 的 词 表 简 化 了 不 同 数据 源 的 整合 ,通过 
参 引 术语 URIs 使 得 这 些 词 汇 的 定义 可 检索 ,并 且 通 过 词 表 链接 允许 来 自 不 
同 词汇 表 的 术语 被 相互 连接 。 

全 球 开放 共享 : 关联 数据 为 实现 高 层次 科学 数据 应 用 提供 了 新 的 机 会 。 
越 来 越 多 的 领域 采用 关联 数据 最 佳 实践 ,逐渐 地 形成 了 统一 框架 、 标 准 访 
问 .语义 关联 和 开放 共享 的 环境 ,建立 了 一 个 全 球 数据 共享 基础 设施 ,成 为 
所 有 学 科 共享 科学 数据 的 范式 。 


1. 基于 关联 数据 的 知识 发 现 的 潜力 


(1) 具备 以 上 机 制 的 关联 数据 ,其 主要 优势 在 于 以 一 种 标准 、 简 捷 、 去 中 
心 化 和 低 成 本 的 方式 在 网 络 的 数据 层 提供 标准 规范 和 简便 的 整合 机 制 ,为 
其 基础 上 的 知识 发 现 提 供 了 新 的 潜力 。 

(2) 扩展 了 知识 发 现 的 范围 : 关联 数据 的 基本 数据 特征 的 理论 优势 ,将 
使 得 知识 发 现 得 以 在 不 必 关 心 资源 的 物理 位 置 ,访问 接口 和 数据 形式 的 平 
台 上 进行 ,为 知识 发 现 提供 了 更 广阔 的 领域 和 更 多 的 机 会 。 通 过 关联 数据 
在 多 个 数据 集 的 数据 之 间 的 链接 ,人 们 得 以 发 现 更 多 的 意料 之 外 的 资源 。 

G) 增强 了 知识 发 现 的 能 力 : 在 文档 网 络 中 ,无 论 是 APIs 或 Web 
APIs ,都 需要 根据 应 用 需求 进行 定制 开发 。 当 应 用 发 生变 化 时 ,必须 调整 或 
者 重新 开发 接口 程序 。 在 网 络 应 用 程序 和 信息 环境 不 断 发 展 和 变化 的 情况 

一 任务 越 来 越 不 可 持续 , 极 大 地 影响 了 高 层 应 用 的 有 效 性 和 稳定 性 ， 
数据 仓 简 ,信息 孤岛 的 问题 并 没有 得 到 真正 的 解决 。 而 关联 数据 则 因为 其 
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自身 的 特征 ,其 顶层 应 用 可 以 不 需要 中 间接 口 层 ,直接 浏览 搜索、 获取 和 混 
搭 应 用 数据 资源 ,保证 了 应 用 的 动态 性 .完整 性 和 可 用 性 ,增强 了 知识 发 现 
网 络 应 用 的 能 力 。 

由 此 可 知 ,基于 关联 数据 的 知识 发 现 ,有 可 能 真正 地 打破 知识 在 物理 上 
和 逻辑 上 的 分 割 和 独立 ,更 广泛 地 发 现 知识 ,更 精确 地 选择 和 组 织 知 识 ,更 
规范 地 揭示 知识 ,更 好 地 在 广泛 .动态 和 完整 的 基础 上 完成 知识 的 发 现 和 
创新 。 


2. 基于 关联 数据 的 知识 发 现 的 特征 


基于 关联 数据 的 知识 发 现在 关联 数据 的 数据 ,数据 源 、 网 络 资源 环境 和 
应 用 规则 的 特征 基础 上 ,从 应 用 角度 看 ,基于 关联 数据 的 知识 发 现 特征 主要 
体现 在 : 

(1) 知识 发 现在 网 络 规模 上 实现 

知识 发 现 的 范围 被 扩展 到 由 异 质 、 异 构 、 分 布 式 知识 源 相 互 关 联 形成 的 
全 球 数据 空间 上 ,知识 发 现 活动 得 以 在 一 个 网 络 规模 上 实现 。 

(2) 实现 语义 化 的 知识 发 现 

关联 数据 采用 机 器 可 读 的 结构 化 语义 数据 模型 ,因此 在 数据 处 理 中 可 
以 由 机 器 自动 和 高 效率 地 理解 和 处 理 显 性 描述 的 数据 间 的 语义 关系 ,使 得 
知识 发 现 可 以 在 语义 查询 能 力 的 支持 下 ,通过 已 经 存在 的 语义 关系 ,发 现 相 
关 的 资源 ,并 且 允 许 推 断 和 发 现 资源 之 间 的 进一步 关系 ,乃至 形成 语义 关联 
的 新 知识 。 

(3) 知识 发 现 的 动态 扩展 和 知识 动态 求 精 

关联 数据 开启 了 新 的 应 用 可 能 ,允许 了 动态 可 扩展 的 知识 发 现 。 去 中 
心 化 和 标准 访问 机 制 使 得 人 们 不 必 完 全 了 解数 据 源 底层 结构 和 语义 查询 底 
层 逻 辑 , 并 且 可 以 适应 数据 源 的 动态 性 ,允许 在 任务 执行 的 期 间 及 时 发 现 新 
的 知识 源 , 从 而 提高 了 知识 发 现 的 准确 性 和 完整 性 。 


7.5.2 基于 关联 数据 的 知识 发 现 过 程 分 析 


基于 关联 数据 的 知识 发 现 是 关联 数据 的 高 层 应 用 ,是 在 关联 数据 理论 
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框架 .技术 和 资源 环境 的 基础 上 的 创新 性 知识 活动 。 

基于 关联 数据 的 知识 发 现 过 程 遵 循 知 识 发 现 的 一 般 活动 规律 ,同时 因 
为 技术 架构 和 网 络 资源 环境 的 变化 而 有 其 独特 性 。 其 过 程 由 知识 发 现 一 般 
过 程 比较 和 推论 如 下 ( 见 图 7-9) 。 


人 至 所 数据 数据 Y | 数据 解释 
1 选择 am "7 转换 P^ oes D 评估 


关联 数据 网 络 | 相关 的 数据 源 ‖ 整合 的 数据 


数据 源 


图 7-9 基于 关联 数据 的 知识 发 现 过 程 


基于 关联 数据 的 知识 发 现 过程 包 括 了 关联 数据 发 布 \ 相 关 源 选择 .关联 
数据 整合 .关联 数据 挖掘 等 基本 阶段 。 


1. 关联 数据 发 布 


与 以 往 数 据 库 知识 发 现 不 同 的 是 ,基于 关联 数据 的 知识 发 现 是 扩展 到 
整个 网 络 规 模 的 ,知识 发 现 的 基础 是 关联 数据 网 络 。 因 此 对 于 整个 基于 关 
联 数据 的 知识 发 现 综合 过 程 ,首要 的 是 知识 发 现 的 用 户 融 入 到 关联 数据 网 
络 中 。 这 种 融入 可 以 包括 发 布 自己 的 数据 集 为 网 络 上 可 用 的 数据 ,以 及 构 
建 数据 集 内 部 和 数据 集 之 间 的 关联 关系 。 这 一 过 程 的 底层 逻辑 是 关联 数据 
的 发 布 原则 ,我 们 称 之 为 关联 数据 发 布 阶段 。 这 一 数据 准备 阶段 本 身 也 包 
含 了 关联 数据 的 链接 发 现 和 构建 过 程 ,同时 为 基于 关联 数据 的 知识 发 现 提 
供 了 丰富 的 语义 互联 的 数据 源 。 


2. 相关 源 选 择 


关联 数据 网 络 中 的 数据 源 数量 巨大 ,并 且 动 态 增 长 .它们 来 自 不 同 的 数 
据 提供 者 ,属于 不 同 的 领域 ,采用 不 同 的 本 体 或 者 词 表 术 语 描 述 概 念 ,使 用 


218 本 体 建 模 与 语义 Web 知识 发 现 


不 同 的 访问 方式 。 在 这 样 的 海量 、 异 构 和 动态 的 数据 源 上 进行 知识 发 现 , 数 
据 选择 是 非常 重要 的 步 又。 如 何 能 够 根据 用 户 查 询 需 求 识 别 和 筛选 出 相关 
的 数据 源 ,同时 兼顾 完整 性 、 准 确 性 和 效率 性 ,是 基于 关联 数据 的 知识 发 现 
的 关键 问题 。 


3. 关联 数据 整合 


关联 数据 的 整合 包括 了 从 相关 的 数据 源 中 查找 和 获取 数据 .根据 需求 
对 获取 的 数据 进行 清理 以 去 除 不 相关 的 数据 ,消除 数据 的 不 一 致 和 歧义 、 对 
结果 进行 相关 性 排序 ,将 实体 根据 规范 的 表示 进行 合并 ,等 等 。 因 为 关联 数 
据 、 关 联 数据 网 络 的 特征 提供 了 知识 源 的 透明 集成 机 制 ,关联 数据 的 自然 属 
性 使 得 传统 知识 发 现 过 程 中 的 数据 选择 ,数据 处 理 和 转换 过 程 得 以 被 蔡 代 。 
关联 数据 整合 通过 关联 数据 解析 查询 模式 映射 ,身份 识别 .质量 评估 、 关 联 
数据 合并 等 特殊 功能 完成 数据 的 查询 、 集 成 过滤、 分 割 和 合并 等 处 理 , 最 终 
形成 待 挖掘 的 整合 关联 数据 。 


4. 关联 数据 挖掘 


数据 挖掘 是 知识 发 现 的 关键 步骤 ,关联 数据 挖掘 同样 是 基于 关联 数据 
的 知识 发 现 的 核心 过 程 。 关 联 数据 上 的 挖掘 可 以 分 为 两 个 层级 的 任务 ,第 
一 个 层面 是 在 整合 的 关联 数据 集 上 ,调度 和 和 运行 传统 的 数据 挖掘 ,完成 制定 
模式 的 知识 发 现 。 这 一 层级 的 数据 挖掘 工作 需要 考虑 到 将 关联 数据 的 检索 
过 程 从 数据 挖掘 过 程 中 分 离 出 来 ,以 便 减 轻 用 户 使 用 和 学 习 扩 展 SPARQL 
和 了 解 关联 数据 的 底层 逻辑 (本 体 、 语 义 ) 的 负担 ; 第 二 个 层面 的 挖掘 是 利用 
关联 数据 自身 的 特点 ,去 挖掘 关联 数据 网 络 的 最 大 潜力 , 即 通过 链接 挖掘 与 
发 现 关联 数据 网 络 中 隐藏 的 ,丰富 的 、 潜 在 有 用 的 关系 。 这 一 层级 的 挖掘 工 
作 目 标 是 创建 针对 关联 数据 特性 的 挖掘 算法 、 知 识 模式 以 便 在 已 有 的 语义 
关联 基础 上 ,推断 和 发 现任 意 资源 之 间 的 进一步 关联 ,或 者 通过 特定 模式 重 
新 组 织 和 架构 形成 新 的 关联 知识 。 
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7.5.3. 基于 关联 数据 的 知识 发 现 模型 


基于 关联 数据 的 知识 发 现 是 一 个 综合 的 系统 工程 ,在 遵守 知识 发 现 一 
般 规律 的 同时 ,具有 自己 的 特征 。 根 据 前 述 的 基本 分 析 , 基 于 关联 数据 的 知 
识 发 现 可 以 概括 为 一 个 分 层 的 应 用 模型 ,将 基于 关联 数据 应 用 的 特殊 性 结 
合 到 知识 发 现 的 一 般 规律 中 ,构建 出 模型 中 ,如 图 7-10 所 示 。 

从 模型 中 可 见 , 整 个 知识 发 现 的 底层 支撑 是 关联 数据 的 方法 、 技 术 、 数 
据 和 网 络 环境 ; 资源 层 是 具备 良好 关联 的 关联 数据 网 络 ; 知识 发 现 处 理 层 
包含 关联 数据 查询 与 获取 的 专门 过 程 数据 处 理 整 合 过 程 ; 应 用 层 是 知识 发 
现 的 用 户 界面 ,包括 知识 发 现 的 问题 定义 、 查 询 输 入 、 结 果 输 出 和 评估 反馈 
过 程 。 此 外 ,知识 发 现 本 身 是 一 个 循环 求 精 的 过 程 ,根据 结果 的 评估 和 反 
馈 , 可 以 循环 回 到 知识 发 现 过 程 的 前 续 阶 段 进一步 获得 更 为 准确 和 符合 需 
求 的 结果 。 

基于 关联 数据 的 知识 发 现 模 型 从 以 下 几 个 方面 体现 出 其 独特 之 处 。 


1. 控制 逻辑 


基于 关联 数据 的 知识 发 现 模型 以 关联 数据 方法 (数据 、 技 术 、 资 源 环 境 、 
标准 、 机 制 ) 作 为 底层 控制 逻辑 。 因 为 在 该 模型 中 ,知识 发 现 被 视 为 基于 关 
联 数据 的 特殊 应 用 ,所 以 模型 的 底层 控制 逻辑 遵循 基于 关联 数据 应 用 的 一 
般 规 律 ,具有 关联 数据 应 用 的 相关 特征 。 数 据 准 备 、 数 据 获 取 、 数 据 处 理 和 
数据 挖掘 处 理 过 程 ,都 需要 根据 关联 数据 的 特殊 需求 进行 重新 设计 和 解决 。 


2. 流程 和 结构 控制 


模型 以 知识 发 现 作 为 基本 方法 ,程序 执行 过 程 和 数据 的 流程 自 关联 数 
据 发 布 过 程 向 上 ,完全 拟 合 知识 发 现 的 一 般 过 程 , 最 终 实现 发 现 知识 的 最 终 
目标 。 模 型 结构 也 因 流 程 自 底 向 上 采用 分 层 结构 ,该 结构 也 符合 基于 关联 
数据 的 应 用 框架 结构 。 证 明了 在 此 模型 中 很 自然 地 将 关联 数据 的 应 用 与 知 
识 发 现 方法 融合 在 一 起 ,各 自发 挥 优势 ,解决 科学 的 问题 。 
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7-10 基于 关联 数据 的 知识 发 现 模型 
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3. 关键 操作 控制 


模型 的 各 层 之 间 和 各 功能 模块 之 间 依 靠 几 个 关键 操作 进行 衔接 、 互 动 


和 控制 , 即 数据 关联 构建 操作 ,分 布 式 关联 数据 发 现 操作 和 关联 知识 发 现 操 
作 。 这 些 功 能 和 操作 实现 模型 中 资源 的 调用 、 组 织 和 生成 ,是 基于 关联 数据 
的 知识 发 现 能 否 实现 的 关键 。 它 们 主要 涉及 关联 数据 的 操作 ,因此 问题 的 
解决 需要 面 对 关 联 数据 提出 的 挑战 。 而 这 几 个 关键 操作 问题 的 解决 ,最 终 
将 实现 知识 发 现 的 范围 效率 和 能 力 的 提升 。 
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第 8 章 基于 本 体 的 知识 推理 


本 体 中 蕴含 了 丰富 的 语义 知识 ,对 本 体 知识 库 进 行 推理 ,是 以 本 体 作为 
信息 组 织 形 式 , 比 传统 数据 库 更 具 智 能 化 ,通过 推理 可 以 获得 本 体 中 特定 形 
式 的 知识 集合 以 及 运用 本 体 中 的 知识 来 辅助 解决 涉及 语义 的 应 用 。 

使 用 OWL 本 体 作为 信息 检索 的 载体 ,用 户 能 够 方便 地 在 概念 上 描述 信 
息 需 求 , 构 造 复 杂 的 语义 查询 。 本 体 的 查询 需要 借助 于 SPARQL 语言 ,但 
由 于 该 语言 只 能 查询 OWL 知识 库 中 显 式 定义 的 知识 ,本 身 不 具备 推理 的 功 
能 ,因此 需要 借助 推理 引擎 ,将 本 体 中 具有 隐 含 语义 关联 的 数据 提取 出 来 ， 
获得 所 有 相关 联 的 数据 作为 SPARQL 查询 的 数据 源 。 对 本 体 中 蕴含 的 知 
识 进行 有 效 地 查询 与 智能 化 推理 ,是 本 体 在 各 个 领域 能 够 成 功 应 用 的 基础 

本 体 的 知识 推理 从 根本 上 说 就 是 把 隐 含 在 显 式 定 义 和 声 明 中 的 知识 
通过 一 种 处 理 机 制 提取 出 来 。 对 本 体 的 开发 人 员 来 说 ,本 体 的 推理 可 以 用 
于 检测 本 体 定义 中 存在 的 冲突 ,消除 不 一 致 性 ,优化 本 体 表达 和 实现 本 体 
融合 ; 而 对 于 知识 管理 .语义 检索 .自然 语言 理解 等 诸多 领域 的 本 体 使 用 
者 来 说 ,本 体 的 推理 可 以 获得 本 体 中 特定 形式 的 知识 集合 并 用 于 解决 实际 
问题 。 


8.1 本 体 推理 机 系统 构成 
本 体 推理 机 是 实现 语义 检索 和 知识 推理 的 关键 技术 之 一 。 目 前 一 些 本 


体 推 理 系 统 中 已 经 成 功用 于 推理 和 查询 语义 Web, 其 中 比较 典型 的 有 W3C 
对 本 体 进行 测试 的 本 体 推理 机 ,DIG 基于 描述 逻辑 实现 的 本 体 推 理 机 ,一 些 
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集成 在 语义 网 开发 平台 (如 HP 实验 室 的 Jenal、 德 国 Karlsruhe 大 学 的 
KAON2) 和 本 体 管理 系统 (如 IBM 的 SNOBASE 系统 ) 中 的 推理 引擎 。 

本 体 推理 机 由 本 体 解析 器 .查询 分 析 器 、 推 理 引 擎 结果 展现 和 API 五 
大 模块 组 成 ,如 图 8-1 所 示 。 


图 8-1 本 体 推 理 机 的 系统 构成 


本 体 解 析 器 : 负责 读 取 和 解析 本 体 文件 , 它 决定 了 推理 机 能 够 支持 的 本 
体 文件 格式 。 解 析 性 能 的 好 坏 决定 了 推理 机 是 否 支 持 对 大 本 体 文件 的 
解析 。 

查询 解析 器 : 负责 解析 用 户 的 查询 命令 。 

推理 引擎 : 是 本 体 推理 机 的 核心 部 件 , 负 责 接受 解析 后 的 本 体 文件 和 查 
询 命令 ,并 执行 推理 流程 ,推理 引擎 决定 本 体 推 理 机 的 推理 能 力 。 目 前 大 部 
分 推理 引擎 是 基于 描述 逻辑 的 。 

结果 展现 模块 : 对 推理 引擎 所 推导 出 来 的 结果 进行 包装 ,满足 用 户 的 需 
求 。 它 决定 了 本 体 推理 机 能 够 支持 的 文件 输出 格式 。 

API 模 块 : 主要 面向 开发 用 户 , 一 般 有 三 部 分 ,OWL-API、DIG(DL 
Implementation GrouP) 接 口 以 及 编程 语言 开发 接口 。OWL-API 为 用 户 操 
作 OWL 本 体 文件 提供 了 一 种 标准 接口 。DIG 接口 为 描述 逻辑 推理 机 系统 
向 外 提供 服务 提供 了 一 组 标准 的 接口 ,作用 类 似 于 数据 库 中 的 ODBC, 它 允 
许 前 端 (如 本 体 编辑 器 Protege) 挂 接 到 后 台 不 同 的 推理 引擎 上 。 另 外 本 体 
推理 机 提供 的 常见 编程 语言 接口 主要 有 Lisp 和 Java 两 种 ,大 部 分 本 体 推理 
机 是 采用 这 两 种 编程 语言 实现 的 。 
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8.2 本 体 推理 技术 和 推理 算法 


知识 推理 技术 是 基于 本 体 知 识 库 的 基础 ,实现 本 体 推理 的 主要 技术 中 
有 以 下 四 种 : 


1. 基于 传统 描述 逻辑 的 推理 方法 


典型 代表 有 Pellet、Racer 和 FaCT++ ,它们 都 是 基于 传统 Tableaux 算 
法 设计 并 实现 的 本 体 推 理 机 ,同时 也 引入 了 许多 Tableaux 算法 的 优化 技术 ， 
从 而 使 得 推理 效率 很 高 。 


2. 基于 规则 的 方法 


本 体 推理 作为 一 类 应 用 ,可 以 映射 到 规则 推理 引擎 上 进行 推理 。 目 前 
已 经 存在 了 许多 现成 的 实现 OWL 到 规则 的 转化 工具 。 基 于 规则 方法 实现 
的 本 体 推理 机 系统 典型 代表 有 Jess 和 Jena. 


3. 利用 逻辑 编程 方法 


基于 演绎 数据 库 (Deductive database) 技 术 实现 ,典型 的 系统 项 目 有 下 - 
OWL, 德 国 卡 尔 斯 鲁 厄 大 学 的 KAON2 也 是 一 个 采用 这 种 技术 方法 实现 的 
典型 例子 。 


4. 基于 一 阶 谓词 证 明 器 的 方法 


由 于 OWL 声明 语句 能 够 很 方便 地 转化 为 FOL(First Order Logic) , 因 
此 也 就 可 以 很 方便 地 利用 传统 的 一 阶 谓词 证 明 器 实现 对 OWL 的 推理 ,例如 
Hoolet 本 体 推理 机 就 是 利用 了 Vampire 一 阶 谓词 证 明 器 来 实现 本 体 推 理 。 
用 于 语义 推理 的 推理 算法 很 多 ,其 中 最 为 常用 的 算法 包括 Tableau 算法 
和 Rete 算法 。 目 前 各 种 流行 的 推理 机 所 使 用 的 算法 多 为 这 两 种 算法 的 优化 
算法 , 均 以 Tableau 算法 和 Rete 算法 为 基础 。 
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1) Tableau 算法 

Tableau 算法 ,是 传统 描述 逻辑 推理 系统 的 核心 算法 ,因为 所 有 其 他 的 
推理 功能 如 分 类 、 包 含 等 都 可 以 规约 为 概念 的 一 致 性 检查 ,而 Tableau 算法 
就 是 具体 负责 概念 一 致 性 检查 , 它 最 早 由 Schmidt-Schau 和 Smolka 为 检验 
ALC 概念 的 可 满足 性 而 提出 ,该 算法 能 在 多 项 式 时 间 内 判断 描述 逻辑 ALC 
概念 的 可 满足 性 问题 ,Tableau 算法 被 广泛 用 于 各 种 描述 逻辑 中 以 判断 概念 
的 可 满足 性 或 概念 间 的 包含 关系 ,各 种 优化 的 Tableau 算法 也 已 在 实用 推理 
机 ,例如 FaCT、Racer 等 中 得 以 实现 。 

Tableau 算法 其 基本 思想 是 试图 通过 构建 一 个 C 的 模型 来 证 明 概 念 C 
的 满意 度 。 一 个 满足 R 的 推断 中 CI 不 为 空 。 算 法 在 一 个 树 ( 或 树 集合 ) 上 
运行 ,各 节点 被 定制 为 C 的 子 概念 集 , 边 被 定制 为 C 上 发 生 的 角色 集 。 在 树 
中 的 节点 相当 于 在 概念 (角色 ) 的 推断 中 的 元 素 ( 元 组 )。 通 常 ,一 个 单独 的 
树 从 被 定制 为 {C} 的 根 节点 初始 化 。 

该 算法 竭尽 全 力 应 用 Tableau 规则 分 解 节点 上 定制 的 概念 的 语法 结构 ， 
或 者 扩展 节点 标志 ,向 树 中 添加 新 的 边 和 节点 ,或 者 合并 边 和 节点 。 一 个 规 
则 的 应 用 有 效 地 说 明了 从 概念 到 应 用 的 规则 暗示 了 推断 的 约束 ,例如 ,如 果 
AB 是 一 个 节点 x 的 标志 ,那么 规则 被 添加 到 A 和 了 的 标志 中 。 这 说 明 一 
个 事实 , 那 就 是 如 果 x CA B)I, 那 么 x AI EL x BI。 简 单 的 说 ,如 果 R.A 是 一 
个 节点 x 的 标志 ,那么 规则 添加 一 个 标志 为 {A} 的 新 的 节点 y, 它 在 x 和 y 之 
间 带 有 一 个 标志 为 {R} 的 边 。 这 也 说 明 一 个 事实 : 如 果 x CR. A)I, 那 么 就 必 
须 存 在 一 个 节点 y, 使 得 (x, y) RI,y AI. 

如 果 存 在 明显 的 矛盾 ,那么 建立 模型 的 尝试 就 失败 了 ,这 通常 被 称 为 产 
生 了 冲突 。 例 如 ,如 果 包 含 某 个 概念 D 和 D 的 某 个 节点 ,如 果 没 有 新 的 规则 
需要 被 应 用 了 ,而且 一 直 没 有 冲突 产生 ,那么 建立 的 模型 就 成 功 了 。 当 且 仅 
当 规则 可 以 按照 让 模型 被 成 功 的 构建 的 方式 应 用 ,证 明 一 个 概念 是 满意 的 
就 相对 简单 了 。 算 法 的 计算 复杂 度 由 于 一 些 规则 不 确定 的 事实 而 增长 。 事 
实 上 当 冲 突 产生 时 ,处 理 方式 是 通过 回溯 试图 找到 另 一 个 不 确定 的 规则 进 
行 应 用 。 


第 8 章 基于 本 体 的 知识 推理 227 


这 一 基本 理论 用 于 SHOQ (D,) 中 。 首 先 ,算法 在 一 个 森林 或 树 上 运 
行 , 需 为 概念 C 中 每 一 个 名 词 ( 术 语 ) 构 建 一 个 附加 的 树 。 被 称 为 模块 化 的 
循环 检测 的 形式 也 必须 被 用 于 确保 终止 。 其 次 ,算法 需要 使 用 一 个 类 型 检 
测 器 来 检测 源 自 数据 类 型 存在 性 、 值 .最 大 概念 和 最 小 概念 等 的 推断 的 约 
东 。 一 般 来 说 基于 Tableau 算法 实现 的 本 体 推理 机 具有 图 8-2 所 示 的 典型 
系统 结构 。 

其 中 本 体 解 析 器 负责 解析 本 体 和 获取 本 体 [ xm —] 
中 TBox 知识 和 ABox 知识 ,并 分 别 把 它们 送 入 T] 
预 处 理 器 和 一 致 性 检查 引擎 中 ; 预 处 理 器 主要 负 预 处 理 器 
责 把 概念 表达 式 进行 范式 化 , 即 把 概念 描述 转换 
成 一 个 标准 的 否定 范式 ,然后 再 执行 简化 操作 ， Absorption 
经 过 预 处 理 之 后 ,包含 和 一 致 性 问题 能 够 得 到 简 Tg 
化 ,有 时 可 以 通过 语法 检测 明显 的 可 满足 性 ,从 而 | intermnalization 
完全 避免 了 比较 耗 时 的 一 致 性 检查 ;Absorption pgo 基于 Tableau 4 
操作 主要 是 为 了 把 一 般 公 理 转化 成 原子 定义 公 法 实现 的 推理 机 
理 ,通过 这 个 Absorption 操作 ,能 够 大 幅度 提高 系统 结构 图 
推理 机 的 性 能 ,经 过 上 述 两 步 之 后 TBox 分 成 了 
Tu 和 Tg 两 大 部 分 ,Tu 直接 送 入 一 致 性 检查 引擎 ,Tg 则 还 需要 通过 一 个 内 
化 操作 , 它 可 以 把 一 个 全 局 属性 的 问题 归 约 为 单个 概念 的 可 满足 性 检查 , 除 
了 上 述 的 体系 结构 图 所 描述 的 一 些 基本 优化 器 之 外 ,还 有 许多 的 优化 器 没 
有 整 入 , 壁 如 偏 序 优化 , 它 在 对 KB 进行 分 类 的 过 程 中 可 以 减少 包含 测试 的 
次 数 ,还 有 包含 检查 优化 , 它 可 以 避免 采取 代价 昂贵 的 一 致 性 检查 策略 , 同 
样 如 果 采 用 了 一 致 性 检查 优化 策略 还 可 以 进一步 减少 一 致 性 检查 时 间 。 

2) Rete 算法 

Rete 算法 的 发 展 是 为 了 解决 规则 范式 如 何 快速 匹配 事实 这 一 核心 问 
题 。1982 年 由 美国 卡耐基 - 梅 隆 大 学 的 Forgy 教授 在 (人 工 智 能 》 杂 志 上 提 
出 ,原理 是 将 匹配 过 程 中 生成 的 中 间 结 果 一 直 存储 在 内 存 中 。 例 如 ,在 规则 
系统 的 常规 执行 中 ,传统 做 法 是 将 事实 与 规则 范式 比较 直至 两 个 事实 都 被 
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断言 ,但 在 Rete 算法 中 ,事实 只 匹配 一 次 ,范式 中 的 变量 (x) 就 被 存储 起 来 。 
接着 ,如 果 另 一 个 事实 被 断言 ,就 只 用 简单 的 比较 x 的 值 ,如 果 相等 ,这 个 规 
则 就 被 激活 了 。 

在 基于 规则 的 语言 中 ,范式 是 组 成 规则 的 元 素 。Rete 算法 决定 规则 的 
运行 。Rete 是 用 一 个 静态 判别 网 络 ,由 语言 编辑 器 生成 ,在 规则 间 表 示 数 据 
的 信任 。Rete 避免 了 在 工作 存储 中 进行 数据 添加 期 间 进行 不 必要 的 重复 匹 
配 计算 ,取而代之 的 是 在 网 络 中 被 称 为 beta 存储 的 节点 中 存储 中 间 匹 配 变 
量 。 从 (或 向 ) 工 作 存储 添加 (或 删除 ) 数 据 在 Rete 中 试 均衡 的 : 删除 数据 的 
操作 序列 和 添加 数据 是 相同 的 。Rete 用 空间 换取 时 间 : 匹配 的 结果 加 入 存 
储 器 中 为 以 后 重用 做 准备 。 

Rete 算法 奇迹 般 的 减少 了 匹配 的 数量 ,匹配 的 数量 通过 维持 一 个 包含 
了 内 存 中 信息 的 有 向 图 数据 结构 在 每 次 循环 中 必须 被 执行 。 途 中 的 第 一 层 
节点 被 称 为 alpha 节点 。 每 一 个 alpha 节点 表示 一 个 单一 的 范式 。 当 规则 中 
不 止 一 个 范式 时 ,alpha 节点 被 beta 节点 连接 起 来 完成 两 个 节点 的 联合 。 
Beta 节点 再 连接 到 更 远 的 beta 节点 ,直至 生成 一 个 单独 的 节点 。 这 个 最 终 
的 节点 表示 了 完整 的 规则 。 

当 一 个 事实 被 断言 时 ,一 个 令 牌 就 被 创建 并 被 送 入 Rete 网 路 中 处 理 该 
事实 类 型 的 alpha 节点 。 令 牌 是 一 个 关于 该 事实 并 包含 特殊 信息 的 包 ,这 些 
特殊 信息 比如 该 事实 是 被 断言 还 是 退回 。 如 果 这 个 令 牌 在 一 个 alpha 节点 
中 匹配 范式 成 功 , 它 将 被 传 到 下 一 个 节点 ,同时 范式 中 所 有 的 变量 都 被 存 人 
一 张 表 中 ,这 被 称 为 节点 存储 。Beta 节点 从 alpha 节点 的 存储 表 中 获取 行 并 
试图 将 它们 合 在 一 起 ,验证 同名 的 变量 是 否 值 也 相等 。 例 如 ,如 果 一 张 表 中 
某 行 包 含 变量 A=1 和 B 一 2, 另 一 张 表 中 的 一 行 包 含 变量 A=1 和 C=3, 于 
是 一 个 新 行 就 被 创建 在 beta 节点 中 ,这 行 包含 值 A—1.B—2.C—3. FES 
牌 通过 了 。 如 果 两 张 表 中 A 的 值 不 相同 就 不 会 生成 新 的 行 , 令 牌 也 不 会 被 
通过 。 当 令 牌 在 Rete 网 络 中 走 过 所 有 的 路 径 , 就 会 出 现 一 个 表示 整个 规则 
的 终端 节点 。 由 于 令 牌 到 达 终 端 节点 ,规则 中 的 所 有 的 范式 必须 已 经 被 匹 
配 ,因此 规则 能 被 激活 。Rete 算法 的 主要 优势 在 于 规则 的 条 件 在 一 个 事实 
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被 断言 或 删除 时 仅 被 再 评估 。 用 这 种 方式 ,断言 一 个 新 的 事实 仅仅 是 向 网 
络 中 传递 一 个 令 牌 ,只 有 很 小 数量 的 匹配 被 执行 。 在 常规 执行 那个 ,每 一 个 
新 的 事实 都 将 与 每 一 个 规则 的 每 个 范式 进行 比较 ,这 意味 着 大 量 的 时 间 复 
杂 度 。 撤 销 一 个 事实 与 断言 是 一 样 的 ,但 是 信息 在 节点 存储 中 被 清除 了 。 

Rete 算法 有 编译 时 间 和 运行 时 间 之 分 。 在 编译 时 间 规 则 的 前 件 被 编译 
到 一 个 判别 网 络 中 ,用 操作 代码 语言 表示 。Rete 网 络 是 一 个 数据 流 网 络 , 在 
规则 环境 下 表示 数据 的 相关 性 。 在 运行 时 间 数 据 项 表示 工作 存储 中 内 容 的 
变化 , 称 为 变换 令 牌 ,在 网 络 的 根部 进入 沿 着 路 径 执 行 。 变 换 令 牌 或 者 表示 
向 工作 存储 中 添加 操作 或 者 表示 从 中 删除 操作 。 网 络 包 含有 两 种 节点 : 测 
试 节点 和 联合 节点 。 

Rete 算法 的 使 用 大 大 提高 了 规则 匹配 的 效率 ,但 是 它 为 保存 中 间 结 果 
占用 了 大 量 的 存储 空间 。 由 于 存储 空间 的 几何 增长 ,以 存储 空间 换取 执行 
的 时 间 , 当 推理 的 知识 库 比较 大 时 ,对 存储 空间 的 消耗 是 惊人 的 。 为 提高 
Rete 算 法 的 存储 效率 ,减少 存储 空间 的 消耗 ,一 些 改进 算法 (如 TREAT. 
RETE* ) 也 相应 提 了 出 来 。 


8.3 本 体 推理 机 分 类 


根据 其 使 用 方式 的 不 同 可 以 把 本 体 推理 机 分 为 内 置 和 外 挂 两 大 类 ,这 
种 区 分 主要 针对 本 体 推理 机 的 具体 使 用 方式 而 定 ,如 SWOOP 编辑 器 内 置 
了 Pellet 本 体 推 理 机 , 则 此 时 的 Pellet 对 用 户 来 说 是 内 置 的 ,但 是 如 果 Pellet 
通过 DIG 接口 与 Protege 本 体 编辑 器 连接 在 一 起 之 后 ,此 时 Pellet 对 用 户 来 
说 就 是 外 挂 推 理 机 ; 根据 推理 机 实现 的 技术 不 同 而 分 成 基于 描述 逻辑 、 基 于 
规则 等 不 同类 别 , 这 里 是 按照 本 体 推 理 机 是 否 针对 某 些 具体 本 体 描述 语言 
而 实现 把 本 体 推理 机 划分 为 专用 和 通用 两 大 类 : 

CD 专用 本 体 推理 机 。 如 Racer、FaCT++、Pellet 等 属于 专用 本 体 推理 
机 ,它们 支持 的 主要 本 体 语 言 为 RDFS、.OWL 等 。 专 用 本 体 推 理 机 效率 较 
高 ,使 用 方便 ,只 是 它 将 推理 能 力 限定 在 几 种 具体 的 本 体 语言 上 , 较 难 进行 
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扩展 。 

(2) 通用 本 体 推理 机 。 典 型 的 有 Jess, 它 是 开放 的 ,用 户 只 需要 提供 不 
同 领域 的 推理 规则 Jess 就 可 以 对 不 同 领域 进行 推理 。 通 用 本 体 推 理 机 效率 
低 , 也 不 能 提供 针对 各 种 具体 领域 的 优化 能 力 ,使 得 这 种 推理 机 的 效率 很 难 
被 优化 。 

两 类 推理 机 都 应 实现 两 个 基本 推理 功能 : 

(1) 检查 本 体 的 一 致 性 。 保 证 本 体 一 致 性 就 是 保证 本 体 中 已 获得 的 类 
和 个 体 逻 辑 上 的 一 致 性 ,检验 实例 是 否 与 类 、 属 性 和 个 体 的 所 有 公理 约束 相 
冲突 。 

(2) 得 到 隐 含 的 知识 。 本 体 创 建 一 般 遵 循 在 尽量 简化 本 体 的 同时 使 得 
本 体 尽 量 包 含 足 够 多 的 信息 。 因 为 如 果 要 在 一 个 本 体 中 声明 出 所 有 的 语义 
关系 ,那么 构建 本 体 将 是 一 件 非常 复杂 而 又 繁琐 的 任务 ,也 会 导致 本 体 过 于 
庞大 而 难以 处 理 ; 若 本 体 设计 简单 ,在 实际 应 用 中 又 需要 本 体 中 蕴含 的 语义 
信息 ,这 时 就 需要 本 体 推 理 机 来 获取 本 体 中 隐 含 的 信息 。 


8.4 典型 的 本 体 推理 机 系统 


表 8-1 为 当前 在 语义 推理 方面 使 用 最 为 流行 的 推理 机 列表 。 


表 8-1 最 为 流行 的 推理 机 


名 称 开发 组 织 URL 开源 
JENA HP 实验 室 http: //jena. soursefouge. net/ 开源 
PELLET es a 组 http: / /clarkparsia. com/pellet 开源 
RACER 德国 Racer Systems http://www. racer-syatem. com/ 商用 
JESS 美国 Sandia 实验 室 http://www. jessrules. com/ 开源 
KANO2 德国 卡尔 斯 鲁 厄 大 学 | http://kano2. semanticweb. org/ 开源 
FACT++ 英国 曼城 斯 特大 学 http://owl. manac. uk/factplusplus/ 开源 


(1) Jena 是 由 HP Labs(http://www. hpl. hp. corn) 开 发 的 (Java 开发 ) 
一 种 产生 式 规则 的 前 向 推理 系统 。Jena 框架 包含 一 个 本 体 子 系统 
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(Ontology Subsystem), 它 提供 的 API 支持 基于 OWL, DAML 二 OIL 和 
RDFS 的 本 体 数据 ; Jena 提供 了 ARQ 查询 引擎 ,实现 SPARQL 查询 语言 
RDQL, 从 而 支持 对 模型 的 查询 。Jena 的 主要 特点 是 代码 开源 性 。 

(2) Pellet 是 由 美国 马里 兰 大 学 College Park 分 校 MinSwap 实验 室 开 
发 的 一 个 本 体 推理 机 。 是 一 个 基于 Java 的 开放 源码 系统 ,以 描述 逻辑 作为 
理论 基础 ,采用 Tableaux 算法 。Pellet 是 一 个 较 完 善 的 OWL-DL 推理 机 ， 
广泛 支持 个 体 推理 ,包括 名 义 (nominal 枚 举 类 ) 推 理 和 合 取 查询 ,用 户 自 定 
义 数 据 类 型 和 本 体 的 调试 支持 。Pellet 主要 应 用 在 本 体 开发 ,发现 和 构建 
Web Service 等 方面 。Pellet 效率 较 高 ,但 是 缺乏 对 本 体 规 则 语言 SWRL 的 
支持 ,并 且 支 持 的 本 体 查询 语言 不 够 全 面 。 一 般 只 是 进行 A-Box 推理 查询 
的 时 候 考 虑 使 用 Pellet ,而 查询 如 果 牵 涉 到 T-Box 推理 则 推荐 使 用 Racer。 

(3) Racer 最 初 由 德国 的 汉堡 大 学 开发 的 基于 描述 逻辑 系统 的 知识 表达 
系统 ,采用 Tableaux 算法 , 它 的 核心 系统 是 SHIQ( 描 述 逻辑 的 一 种 , 它 主 要 
包含 交 、. 并 \ 存 在 .任意 .数量 约束 等 构造 算 子 ) Racer 也 可 以 对 基于 RDFS\ 
OIL--DAML 和 OWL 知识 库 进行 处 理 。 它 提供 支持 多 个 TBox( 术 语 公理 ) 
和 ABox( 断 言 事实 ) 的 推理 功能 。 给 定 一 个 TBox 后 ,Racer 可 以 完成 各 种 
查询 服务 Racer 具有 较 强 的 本 体 一 致 性 检查 功能 ,在 TBox 方面 推理 能 力 
较 强 ,能 够 对 大 本 体 文件 提供 良好 的 支持 ,而 且 具 有 图 形 用 户 界面 ,并 有 详 
细 的 开发 文档 和 示例 代码 ,但 是 Racer 不 支持 对 枚 举 类 和 用 户 自 定义 数据 类 
型 的 推理 。 

(4) Jess 是 一 个 经 过 扩充 的 CLIPS(C Language Integrated Production 
System) 版 本 ,由 美国 实验 室 分 布 式 系统 计算 机 组 用 Java 实现 的 基于 产生 式 
的 前 向 推理 引擎 。Jess 是 性 能 良好 的 开放 式 推理 机 ,采用 经 典 的 Rete 算法 ， 
支持 正 向 和 逆向 推理 ,在 提供 这 个 领域 的 相关 规则 和 事实 信息 的 前 提 下 , 原 
则 上 可 以 处 理 各 种 领域 的 推理 服务 。 由 于 Jess 是 通用 推理 引擎 ,使 得 这 种 
推理 机 制 的 效率 很 难 优化 。 

(5) KAON2 是 管理 OWL-DL, AWRL 和 F-Logic 本 体 的 基础 设施 , 它 
由 信息 技术 研究 中 心 (FZD 的 IPE、 卡 尔 斯 鲁 厄 大 学 的 AIFB 和 曼 切 斯 特大 
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学 的 IMG 共同 努力 开发 的 。KAON2 是 KAON( 也 即 KAON1) 的 新 一 代 产 
品 ,KAON2 5 KAONI 的 不 同 在 于 , KAONI 基于 RDFS 及 其 扩展 ,而 
KAON?2 基于 OWL-DL 和 F-Logic。KAON2 的 特点 主要 体现 在 以 下 几 个 
方面 : 

O 提供 OWL-DL. SWRL fil F-logic 本 体 的 API; 

@ 利用 RMI 以 分 布 式 方式 提供 对 本 体 的 访问 的 独立 服务 器 ; 

© 回答 以 SPARQL 表示 的 连接 查询 的 推理 引擎 ; 

@ DIG 的 界面 ,允许 从 PROTEGE 等 工具 访问 ; 

C) 抽取 关系 型 数据 库 中 现 有 的 本 体 实体 的 模块 ; 

© KAON2 的 API 能够 处 理 OWL-DL 本 体 ,API 可 以 读 取 OWL XML 
Presentation Syntax 和 OWL RDF Synatx; 

CD 对 于 推理 ,KAON2 支持 SHIQ(D). 这 是 OWL-DL 的 子 集 。 这 包括 
除 nominals 以 外 的 OWL-DL 的 特征 ,因为 nominals 不 是 OWL Lite 的 组 成 
部 分 ,KAON2 支持 所 有 的 OWL Lite; 

@ KAON?2 也 支持 SWRL 的 所 谓 的 DL-safe 的 子 集 。 这 个 约束 可 以 使 
得 推理 可 决定 ; 

KAON? 的 API 也 能 处 理 F-logic 的 本 体 , 它 支持 F-Logic 的 功能 
子 集 ; 

D KAON?2 中 查询 可 以 用 SPARQL 构造 ,但 是 并 不 支持 所 有 的 
SPARQL 规范 。 

采用 KAON2 的 项 目 包括 EU IST OntoGov. EUISTSEKT 项 目 ， 
BMBF 的 SmartWeb 项 目 ,但 是 , 近 几 年 KAON2 很 少 进行 进一步 的 开发 以 
及 维护 工作 。 

(6) FaCT++ 是 FaCT(Fast classification of Terminologies) 的 新 一 代 产 
品 ,是 英国 曼城 斯 特大 学 开发 的 一 个 描述 逻辑 分 类 器 ,提供 对 模型 逻辑 
(model logic) 的 可 满足 性 测试 ,采用 了 客户 端 /服务 器 模式 。FaCT++ 采 用 
FaCT 的 算法 ,二 者 均 采 用 tableaux 算法 ,但 是 内 部 结构 是 不 同 的 。 
FaCT++ 是 基于 描述 逻辑 的 推理 机 ,支持 OWL DL 和 OWL2 标准 ,为 了 提高 
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效率 和 获得 更 好 的 平台 移植 性 ,FaCT++ 采 用 了 C++ 而 非 FaCT 的 Lisp 语言 
来 实现 ,这 是 FaCT++ 和 其 他 推理 机 不 同 的 一 个 地 方 。FaCT++ 推 理 机 在 本 
体 一 致 性 检查 上 具有 很 好 的 表现 ,但 是 FaCT++ 没 有 提供 OWL 接口 也 不 支 
持 对 实例 的 查询 。FaCT++ 也 是 开源 的 ,但 是 开发 文档 和 示例 代码 都 不 详 
细 , 而 且 没有 友好 的 用 户 界面 。 

通过 对 当前 本 体 推理 机 的 分 析 和 几 种 典型 推理 机 的 测试 对 比 ,发 现 尽 
管 大 部 分 本 体 推理 机 都 能 够 实现 两 大 基本 推理 功能 .但 是 还 是 存在 着 一 些 
不 足 , 如 Racer 不 支持 对 枚 举 类 和 用 户 自 定义 数据 类 型 的 推理 , Pellet 缺乏 
对 本 体 规则 语言 SWRL 的 支持 并 且 支 持 的 本 体 查询 语言 不 够 全 面 等 。 另 
外 ,它们 还 缺乏 对 多 个 本 体 、 不 一 致 本 体 以 及 大 规模 本 体 服务 器 的 推理 支 
持 , 还 有 用 户 界面 不 够 友好 等 缺陷 。 

由 此 可 见 ,未 来 本 体 推 理 机 的 发 展 趋势 应 该 是 在 系统 功能 方面 开发 更 
为 强大 和 完善 的 推理 算法 ,如 在 描述 逻辑 中 支持 量词 约束 .用 户 自 定义 数据 
类 型 和 逆 关 系 属性 类 型 等 。 并 能 允许 用 户 自 定义 推理 规则 以 及 支持 多 个 、 
多 版 本 和 不 一 致 本 体 的 推理 。 向 用 户 提供 更 加 友好 的 GUI 和 更 为 丰富 的 程 
序 开发 接口 也 将 是 未 来 本 体 推 理 机 的 一 大 发 展 趋势 。 


8.5 ” 粗 逻 辑 在 本 体 推理 中 的 应 用 


描述 逻辑 的 知识 描述 能 力 和 推理 能 力 受到 描述 逻辑 算 子 个 数 的 限制 ， 
若 需要 描述 逻辑 完成 更 多 的 推理 任务 ,就 需要 增加 描述 逻辑 的 算 子 。 本 节 
的 目的 在 于 应 用 粗糙 集 理 论 来 处 理 不 确定 集合 ,从 而 使 得 相应 的 本 体能 够 
有 效 地 处 理 不 确定 信息 ,将 粗 逻 辑 引 入 描述 逻辑 的 知识 表示 和 推理 机 制 。 


8. 5.1 描述 逻辑 


描述 逻辑 (Description Logic. DL) 又 称 为 术语 逻辑 (Terminology 
Logic) 或 类 KL-ONE 系统 ,由 Brachman 于 1977 年 在 他 的 博士 论文 中 首先 
提出 ,并 实现 第 一 个 DL 系统 KL-ONE, 最 初 的 研究 动机 是 为 知识 表示 中 的 


234 本 体 建 模 与 语义 Web 知识 发 现 


语义 网 络 (Semantic Network) 提 供 形式 化 基础 。 描 述 逻 辑 的 基本 构件 是 概 
念 (Concept) 、 角 色 (Role) 和 个 体 (Individuals) ,简单 的 概念 和 角色 可 以 通过 
复合 方式 表示 复杂 的 概念 和 角色 。 概 念 描述 了 一 个 个 体 集 合 的 共同 属性 ， 
并 且 可 将 概念 解释 为 对 象 集 的 一 元 谓词 ,将 关系 解释 为 对 象 之 间 的 二 元 关 
f. DLS(Description Logic System) 将 推理 作为 中 心服 务 , 即 从 知识 库 以 显 
式 包 含 的 知识 推导 出 隐 含 表示 的 知识 。 

描述 逻辑 系统 的 发 展 大 致 可 分 为 四 个 阶段 。 从 1980 年 至 1990 年 , 称 为 
前 描述 逻辑 系统 (Pre DL Systems) , 主要 关注 对 一 些 系统 的 实现 ,比如 KL- 
ONE、K-REP、BACK 和 LOOM 等 ,这 些 系统 都 基于 结构 化 (Structural) 的 
包含 关系 算法 ; 第 二 个 阶段 从 1990 年 到 1995 年 ,这 一 阶段 开发 了 基于 表 
(Tableau) 的 算法 ,并 实现 了 第 一 批 以 该 算法 为 基础 的 系统 。 从 这 个 阶段 开 
始 , 人 们 正 是 开始 对 各 种 DLS 的 推理 复杂 性 进行 分 析 。 另 外 一 个 重要 的 发 
现 是 描述 逻辑 和 模 态 逻辑 (Modal Logic) 有 着 密切 的 联系 ; 第 三 个 阶段 从 
1995 年 到 2000 年 。 这 个 阶段 开发 了 许多 优化 的 Tableau 算法 ,并 且 优 化 的 
逻辑 描述 系统 (FACT、RACE 和 DLP) 证 明了 这 些 优化 Tableau 算法 的 优良 
性 能 ; 第 四 个 阶段 从 2000 年 至 今 ,在 这 个 阶段 开发 了 具有 商业 价值 的 DL 
系统 ,其 中 采用 了 较 强 的 描述 语言 以 及 基于 Tableau 的 算法 。 描 述 逻 辑 在 计 
算 机 领域 开始 受到 重视 并 进行 推广 。 

DL 最 基本 的 描述 语言 是 ALCAttribute Language) ,在 AL 定义 的 仅仅 
是 原子 否定 。ALC(Attribute Language Complements) 是 在 AL 语言 上 加 上 
对 任意 一 个 概念 的 否定 。 如 果 使 用 A 和 B 来 表示 原子 概念 ,R 表示 原子 关 
系 ,C 和 DD 表示 概念 描述 ,I 是 一 个 解释 , 则 可 以 用 表 8-2 来 说 明 ALC 的 语法 
和 语义 。 

表 8-2 ALC 语义 及 语法 


构造 算 子 语法 语 t 例 dE 
Atomic concept A AEN Human 
Top concept T A! MaleU ^ Male 
Bottom concept 上 o Malef ^ Male 


Atomic negation ^A AINAT ^ Male 
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续 表 
构造 算 子 语法 ik X 例 F 
Concept negation IE WN 
Concept disjunction CUD cup ManU Woman 
Concept conjunction cNAD C' (1D! Humanf! Male 
la€ A | Jb. Ca, D) € R' 
Existential | 3 has-Child. Male 
Ab€C!) 
{a€ AN | Vb. Ca. DD € R' 
Value restriction VR.C bE C) V has-Child. Doctor 
=>] 了 


在 描述 逻辑 语义 中 ,语义 是 通过 映射 (A',") 来 定义 的 ,其 中 AT 为 论 域 。 
映射 函数 工 把 一 个 概念 映射 为 A RE AX A! 的 一 个 
子 集 。 例 如 概念 A 的 语义 为 : A'E A' ,关系 R 的 语义 为 REA'XA'。 

描述 逻辑 知识 表示 系统 包含 了 一 个 知识 库 (Knowledge base) 及 其 推理 
服务 (Reasoning)。 其 中 知识 库 包 含 两 个 组 成 部 分 : 术语 集 或 术语 知识 库 
Tbox( Terminology axiom) 和 断言 集 或 断言 知识 库 Abox (Assertions 
axiom) ,它们 之 间 的 组 成 关系 如 图 8-3 所 示 。Tbox 是 相关 概念 和 关系 的 术 
语 公理 集合 ,专门 用 来 描述 应 用 领域 中 内 涵 概 念 和 关系 的 一 般 属性 ; Abox 
是 相关 个 体 的 实例 化 断言 的 集合 ,表示 应 用 领域 外 延 知识 中 个 体 的 关系 。 


Tbox 


Language 
ES Abox 


KB 


图 8-3 ”描述 逻辑 的 体系 结构 
1. TBox: Tbox 术语 公理 包括 两 种 形式 
假设 C.D 表示 概念 ,R、S 表示 关系 


(1) 蕴含 公理 (Inclusion): C V D(R V S)。 这 个 公理 定义 了 包含 关 
系 ,可 实现 概念 分 类 。 
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(2) MAM (Equality): CD (CR'S)。 这 个 公理 用 来 定义 领域 中 复杂 
的 概念 。 

公式 的 语义 是 根据 期 望 定义 的 ,如 果 解 释 工 满足 CSD' ,那么 C V D. 
同时 如 果 解 释 工 能 够 使 CI 一刀 ,那么 CD。 令 了 工 是 一 个 公式 的 集合 ,如 果 解 
FIRT 中 的 每 一 个 公式 都 满足 , 即 工 满足 T; 若 解释 工 满足 一 个 公式 (或 
者 一 个 公式 的 集合 ) ,那么 解释 工 是 这 个 公式 (或 公式 集合 ) 的 一 个 模型 ; 如 
果 两 个 公式 (或 者 公式 集合 ) 具 有 同样 的 模型 ,那么 将 他 们 叫做 等 价 的 。 


2. ABox: ABox 中 的 实例 化 公理 主要 有 以 下 的 几 种 形式 构成 


假设 ab 表示 个 体 ,C 表示 概念 ,R 表示 关系 

(1) 概念 断言 C(a): 表示 个 体 a 属于 概念 C。 

(2) KRMA Rab): PE a b 存在 着 关系 RR。 

对 于 解释 1 ,如果 a! € C! s Ca! 00 ER', 那 么 称 解释 了 满足 断言 
C(a) 或 者 R(a,b)。 若 解释 了 满足 ABox 中 的 A 的 每 个 断言 , 即 解释 了 满足 
A ,并 称 解释 I 是 ABox 的 一 个 模型 。 


8. 5.2 描述 逻辑 的 推理 机 制 


描述 逻辑 推理 机 的 作用 是 为 知识 库 (KB) 提 供 推理 服务 ,使 其 能 够 发 现 
在 表面 信息 内 部 的 隐 含 信息 ,对 于 知识 发 现 、 维 护 和 系统 改进 是 十 分 有 
利 的 。 

在 Tbox 中 的 推理 问题 ,主要 包括 四 个 方面 , 令 概 念 C 和 DD 是 T 中 的 两 
个 概念 : 

(1) 可 满足 性 检测 (Satisfiabilty) : An fefe 工 中 的 一 个 模型 工 ,使 得 CT 
是 非 空 的 ,从 而 根据 工 ,概念 C 是 满足 的 ,同时 也 可 以 说 I 是 C 的 模型 

(2) 包含 关系 检测 (Subsumption) : 如 果 对 于 工 中 的 每 个 模型 1, 都 有 
C'SED', 那 么 根据 工 概念 C 被 概念 D 包含 ,可 以 写成 CV zrD, 也 可 以 称 作 
T CVD; 

(3) 等 价 关 系 检测 (Equivalence): 如 果 对 于 工 的 每 个 模型 工 ,都 使 得 
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Cr 一 万 ,那么 根据 T. HER CL D 是 等 价 的 ,被 写作 CrD ,或 者 T CD; 

(4) 相 离 关 系 检测 (Disjointness) : 如 果 对 于 工 的 每 个 模型 T, 都 有 Cn 
D! 二 名 ,那么 依据 ,概念 C 与 概念 D 是 相 离 的 。 

+j Tbox 相对 应 ,ABox 中 的 推理 中 最 基本 的 是 一 致 性 检测 。 

一 致 性 检测 即 如 果 一 个 由 Tbox 中 的 工 扩展 的 ABox 中 的 A 是 一 臻 
的 ,那么 必 存 在 一 个 A 和 工 共 有 的 模型 T。 

ABox 的 推理 还 包括 实例 检测 , 即 对 给 定 的 个 体 和 概念 进行 匹配 ,检验 
它们 之 间 是 否 存在 实例 关系 ; KM Realization) , 即 找到 给 定 的 个 体 的 最 基 
本 的 概念 ; 返回 (retrieval) , 即 个 体 的 获取 ,是 指 在 知识 库 中 找到 一 个 给 定 的 
概念 的 所 有 实例 。 

基于 描述 逻辑 ALC 的 推理 机 制 ,对 于 知识 库 KB 的 本 体 推理 ,TBox 的 
四 个 推理 任务 : 可 满足 性 检测 、 包 含 关系 检测 ,等 价 关 系 检测 和 相 离 关系 检 
测 之 间 存 在 如 下 的 转换 关系 : 

(1) C 是 不 可 满足 的 今 C 被 ? 包含 ; 

(2) C 和 DD 是 等 价 的 会 C 被 D 包含 ,同时 DD 被 C 包含 ; 

G) CAD 相 离 邻 CND 被 ? 包含 ; 

(4) CHD 包含 全 CN 站 -DD 不 可 满足 ; 

(5) CAD 是 等 价 的 全 CI 站 ”了 D 与 DPC 同时 不 满足 ; 

(6) C 和 是 相 离 的 今 CND 是 不 可 满足 的 。 

即 在 TBox 层面 上 的 推理 问题 都 可 以 转换 为 包含 性 推理 或 者 可 满足 性 
定理 。ABox 主要 的 推理 任务 是 一 致 性 检测 和 实例 检测 ,其 余 的 概念 实现 ， 
个 体 获取 等 推理 任务 都 可 以 转化 为 一 致 性 检验 ,而 一 致 性 检测 同时 又 能 够 
与 TBox 中 的 不 可 满足 性 检测 相互 转换 ,这 样 就 需要 一 个 出 色 的 算法 来 处 理 
不 可 满足 性 判定 来 完成 一 致 性 检测 , 即 Tableau 算法 。 


8.5.3 TE 


Hpi (Rough Set) 是 由 Pawlak Z. 在 1982 年 提出 的 ,其 基本 思想 是 通 
过 案例 库 分 类 归纳 出 来 的 概念 和 规则 。 粗 糙 集 的 基本 概念 是 上 近似 和 下 近 
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似 , 使 其 对 于 不 能 用 已 有 概念 表示 的 新 概念 给 出 一 个 近似 的 表示 。 经 典 俱 
辑 对 应 着 经 典 集合 , 粗 罗 辑 也 是 对 应 着 粗糙 集 而 产生 的 ,即使 用 粗糙 集 来 描 
述 可 能 世界 。 


1. 粗糙 集 


在 介绍 粗糙 集 之 前 首先 要 给 出 近似 空间 的 概念 ,近似 空间 是 有 一 个 
元 组 A=(U,R) 组 成 ,其 中 U 是 一 个 依赖 与 专业 领域 对 象 的 集合 ,R 是 一 
划分 方案 ,R 可 以 将 U 划分 为 若干 个 子 集 E; ,i 二 1,2,…,n, 我 们 称 E; m 
价 类 ,是 商 集 U/R 的 元 素 , 其 中 U/R— (E, Es E) bas SE IZ FILE, 是 
基本 集 ,一 个 或 者 多 个 基本 集 被 并 称 之 为 合成 集 , 我 们 把 全 体 合成 集 的 族 称 
之 为 com(A)。 在 近似 空间 A 中 对 于 任意 的 集合 XSEU 都 可 以 定义 它 的 上 
近似 集 和 下 近似 集 : 


RX = U E={y|l(3yY(yE[Lrl AyEX))} (8-1) 
E NX+Ø 


RX) = U E: = (y| Yy € [r] >y € X)) (8-2) 


其 中 ,[zj]s 是 包含 x 的 等 价 类 。 下 近似 集 R(X) 是 那些 X 的 子 集 的 基 
本 集 的 并 集 , 因 此 这 个 下 近似 集 是 X 所 包含 的 最 大 合成 集 ; 上 近似 集 ROO 
是 那些 所 有 与 X 有 交集 元 素 的 基本 集 的 并 集 , 因 此 这 个 上 近似 集 是 包含 X 
的 最 小 合成 集 。 我 们 称 RCX)SXSER(CX) 为 在 近似 空间 A 的 粗糙 集 。 同 时 
还 有 : BNROO-SROO-ROOJE X f£ A 上 的 界 集 。 一 X=U 一 X 是 X X 
TER U 的 补 集 。 


2. 粗 逻 辑 


以 近似 空间 A 为 基础 的 粗 逻 辑 , 又 被 称 为 R- 逻 辑 。 和 描述 逻辑 类 似 ， 
它 用 p,q,r,… 来 表示 命题 符号 ; 用 ? 和 人 了 来 分 别 表示 底层 概念 和 上 层 概 
念 ; 它 的 基本 连接 词 是 一 ,人 V .相应 的 可 以 和 描述 逻辑 中 的 算 子 :ut 等 
ffr; 同样 使 用 小 写字 母 g,$,… 表 示人 逻辑 公式 。 解 释 I:T 一 2" ,其 中 全 是 R- 
逻辑 公式 集合 .2” 是 U 上 全 体 子 集 的 集合 , 即 全 中 的 每 个 公式 都 可 以 被 解 
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FHU 中 的 子 集 ， 
Ve€T, g ={w CU|u,y)= TT} 

其 中 wu 是 子 集 w 上 的 赋值 函数 。 于 是 得 到 R- 逻 辑 公式 与 近似 空间 A 
上 的 子 集 存在 如 下 的 对 应 关系 : 

a) T=; 

(2) | 一 g; 

G) Cg)! ——gl; 

(D CeV 9)! — 9! Ug; 

(5) (pA qo! =F gs 

(6) (>p) =~ Ug"; 

(C) (gg)! =~ Ug HN ~$ Ug) 

同时 分 别称 LSR FI H =R 是 粗糙 下 似 算 子 和 粗 烟 上 近似 算 子 , 这 两 个 
算 子 都 是 一 元 操作 ,因此 它 可 以 被 用 来 作用 于 集合 和 公式 两 种 意义 ,分 别 使 
用 括号 以 示 区 别 , 即 : 若 它 是 作用 于 集合 的 , 则 需要 对 其 加 括号 ; 若 作用 于 
非 集合 , 则 不 需要 加 括号 。 从 而 有 : 

(8) (Lg)! 2LG9) -RGD ; 

(9 CHg!-HG)o-R(G., 


3. 粗 逻 辑 的 近似 精度 (Degree of True) 


在 R- 人 逻辑 中 ,我 们 需要 引入 近似 精度 的 概念 。 我 们 令 X CU 是 近似 空 

间 A=(U,R) 上 的 粗糙 集 ,K(S) 表 示 集 合 S 中 元 素 的 个 数 或 基数 , 则 
mn(X) = K(R(X))/K (R(X)) (8-3) 

是 X 在 A 上 的 近似 精度 , 简 记 为 qa CO Ne 

显然 有 0 二 wy 过 1, 由 于 R(X)SXSCR(X) RM uCp) =T M, WEE o 
在 可 能 世界 wE22 上 取 真 值 ; 当 w(y) 二 上 时 , 则 称 gy 在 可 能 世界 wE27 上 
取 假 值 ; 若 us) =q WER o 在 可 能 世界 wE€2” 上 的 近似 精度 值 , 即 不 完 
全 真 。 

Tiu) 420.5 MF. PR e E w C2" 上 是 可 接受 的 精度 值 , 即 粗糙 真 ; 
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反之 ,其 在 wE2” 上 是 不 可 接受 的 精度 值 或 者 说 是 粗糙 假 。 
8.5.4 粗 逻 辑 在 描述 逻辑 推理 中 的 应 用 


在 本 节 将 要 探讨 粗 逻 辑 在 描述 逻辑 中 的 应 用 呈 ,在 现实 世界 中 ,很 多 概 
念 的 界限 并 不 是 如 同 表 8-1 所 举 的 例子 (Man'MaleU Female) 中 提 到 的 具有 
明确 的 分 类 ,同时 即使 在 分 类 明确 的 基础 上 还 存在 一 系列 无 法 明确 表述 的 
例子 ,例如 ,我 们 知道 KindMan 是 Man 的 一 个 子 类 ,但 是 在 Man 被 Male 与 
Female 划分 的 情况 下 ,KindMan 是 无 法 被 描述 的 。 

为 了 解决 描述 逻辑 处 理 不 确定 信息 的 问题 ,有 学 者 提出 了 把 模糊 逻辑 
与 描述 逻辑 相 结合 ,形成 了 模糊 描述 逻辑 。 但 是 基于 模糊 数学 的 模糊 逻辑 
具有 天 生 的 缺陷 , 即 隶 属 度 的 人 为 因素 过 高 ,因此 本 节 尝 试 使 用 粗 逻 辑 参 与 
描述 逻辑 的 知识 表示 与 推理 ,给 出 了 一 个 初步 的 框架 。 


1. 粗 逻 辑 参与 的 TBox 


通过 前 文 ,我 们 已 经 知道 描述 逻辑 的 TBox 部 分 包括 蕴含 公理 和 等 价 公 
理 , 即 若 CD 表示 概念 ,R、S 表示 关系 ,I 表示 对 于 概念 的 解释 ,显然 当 C、D 
为 粗糙 集 的 时 候 依然 可 以 存在 C V DOR. V. S), 同 时 有 C'SD', 但 是 两 个 粗 
粹 概念 的 等 价 关系 就 不 会 是 那么 简单 就 可 以 直接 定义 的 ,下 面 着 重 讨论 当 
C.D 表示 粗糙 概念 的 时 候 , 两 个 概念 的 等 价 如 何 确定 。 

首先 要 明确 一 个 事实 , 若 C.D 两 个 粗糙 概念 是 完全 相同 的 (可 以 说 了 
是 C 的 完全 复制 ) ,那么 必然 对 于 任意 的 解释 工 有 尺 (C7) —RODD ROO = 
RD) , 即 两 个 概念 解释 的 上 下 相近 似 集 相 同 ; 反之 并 不 一 定 成 立 , 但 是 在 
当前 的 近似 精度 下 有 无 法 找 出 两 个 概念 的 区 别 。 

若 举 出 一 个 极端 的 例子 ,两 个 概念 任意 解释 的 上 近似 是 全 集 U ,下 近似 
集 为 空 集 名 ,可 见 在 这 个 标准 之 下 .全 集 U 的 所 有 子 集 都 可 以 被 认为 是 等 价 
的 ,这 个 结论 当然 是 错误 的 ,因此 确定 在 TBox 下 两 个 概念 的 等 价 关系 的 确 
认 依 赖 于 这 两 个 粗糙 概念 的 近似 精度 y, 于 是 有 如 下 的 定理 

定理 8.1 在 描述 逻辑 TBox 中 ,两 个 粗 烟 概念 C.D, 它们 车 有 分 别 相 
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同上 下 近似 集 的 等 价 程度 等 于 这 两 个 概念 的 近似 精度 m. BU : 
EquCC.D) = K(R(C))/K(R(D)) (8-4) 

其 中 K(S) 表 示 集 合 S 中 元 素 的 个 数 或 基数 ,当然 在 Equ C. D) —1 的 
时 候 ,C、D 是 普通 集合 ,同时 也 可 以 确认 C.D 是 完全 等 价 的 ,这 也 与 普通 集 
合 是 粗糙 集 的 特殊 情况 这 个 事实 相 吻 合 。 

于 是 ,我 们 可 以 得 出 两 个 概念 C.D 是 否 等 价 的 算法 : 

CD 计算 C.D 的 上 下 近似 集 ; 

(2) Æ CD 上 下 近似 集 分 别 相 同 ,进入 步骤 3, 反 之 确认 两 者 不 等 价 ; 

G) 使 用 公式 (8-3) 计 算 近 似 精度 ; 

(4) 若 近似 度 大 于 认定 的 阔 值 (一 般 设 定 为 0.5), 可 认定 C.D 等 价 , 反 
之 两 者 不 等 价 。 


2. 粗 逻 辑 参与 的 ABox 


同样 在 前 文中 ,ABox 包括 了 实例 化 公理 ,包括 概念 断言 和 关系 断言 , 关 
于 关系 断言 ,描述 逻辑 与 粗 逻 辑 参与 的 描述 逻辑 并 没有 很 大 的 差别 ,下 面 将 

若 C 是 一 个 粗糙 概念 ,那么 在 现 有 划分 下 ,只 能 通过 上 下 近似 集 来 描述 
这 个 概念 ,那么 一 个 实例 是 否 属于 这 个 概念 需要 分 两 个 方面 来 考虑 : 

CD 若 存在 一 个 实例 c, 对 于 粗糙 概念 C,. 有 aE€R(C), 则 必然 有 永 真 断 
A Cla); 

(2) 若 存在 一 个 实例 c, 对 于 粗糙 概念 C, 有 cEBN(CC) ,其 中 BNC) = 
RCC) 一 R(C) 是 C 的 边界 ,在 这 种 情况 下 ,就 无 法 简单 地 用 真 与 假 来 描述 实 
例 断 言 CCa) 。 同 样 在 前 文 的 例子 中 ,假设 这 个 概念 任意 解释 的 上 近似 是 全 
集 U, 下 近似 集 为 空 集 名 ,那么 所 有 实例 都 属于 这 个 概念 ,这 个 结论 当然 也 是 
无 法 接受 的 。 因 此 这 个 实例 a 属于 概念 C 的 程度 适合 C 的 边界 是 密切 相 
关 的 。 

定理 8.2 对 于 ABox 中 的 实例 a,a€ BN(C) .那么 a 属于 概念 C 的 属 
于 度 等 价 于 粗糙 概念 C. 的 近似 精确 度 , 即 
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Mem (a,C) = KIRGOD/K(Q(C» (8-5) 
这 样 就 可 以 得 出 一 个 实例 a 是 否 为 粗糙 概念 C 的 实例 的 算法 : 
CD 3E a 属于 C 的 下 近似 集 ,可 以 断定 a 属于 C «X a 属于 C 的 边界 , 进 
和 步骤 (2) ,其 余 情 况 视 为 a 不 属于 C; 
(2) 计算 C 的 近似 精确 度 vs 
CD 若 7 了 大 于 给 定 阔 值 , 视 为 a 属于 C ,反之 认定 a 不 属于 C 。 


3. 粗 逻 辑 参与 的 推理 机 


在 粗 逻 辑 改造 的 TBox 和 ABox 的 基础 之 上 ,可 以 使 用 粗 逻 辑 来 参与 描 
述 逻 辑 的 基本 推理 。 前 文中 提 到 过 描述 逻辑 的 推理 部 分 需要 完成 两 个 部 分 
的 任务 : TBox 的 可 满足 性 检测 ,包含 关系 检测 ,等 价 关 系 检 测 和 相 离 关系 检 
测 ; ABox 的 一 致 性 检测 。 

对 于 TBox 的 可 满足 性 检测 ,包含 关系 检测 和 等 价 关 系 检测 三 个 任务 ， 
本 文 不 再 费 述 ,尤其 是 对 等 价 关系 检测 ,可 以 应 用 4. 3. 1 小节 所 提供 的 算法 
来 判断 。 

本 文 着 重 探讨 相 离 关系 的 检测 的 ,对 于 两 个 粗糙 概念 C.D 的 上 近似 集 
不 相交 , 则 必然 有 C 5j D. 的 相 离 关系 ; 若 C 与 的 边界 有 交集 那么 就 要 考 
虑 两 个 粗糙 概念 的 近似 精确 度 ,两 个 粗糙 概念 的 精确 度 越 低 ,那么 两 个 粗糙 
概念 相交 部 分 占 两 个 粗糙 概念 实际 的 比重 越 低 , 即 两 个 粗糙 概念 的 相 离 度 
随 着 两 个 概念 的 近似 精确 度 的 增加 而 减少 ,于 是 有 如 下 的 定理 : 

定理 8.3 两 个 粗糙 概念 C.D 的 相 离 度 与 C`D 的 近似 精度 之 和 成 反 
比 , 即 


an s KRO NRD E 
Dis (C.D) KO T 4D (8-6) 


当 C.D 都 是 普通 集合 的 时 候 , Dis(C,D) 的 相 离 度 达 到 最 小 但 不 会 为 
零 ,除非 分 子 为 零 , 即 两 者 的 交集 为 空 ,这 也 是 与 事实 相符 的 。 

这 样 就 能 够 得 到 相 离 关 系 检 测 的 算法 : 

CD ECD 的 上 近似 集 无 交集 , 视 C.D 相 离 的 。 若 CD 的 上 近似 集 存 
在 交集 , 转 和 人 步骤 (2); 
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(2) 计算 Dis(C. D); 
O) 车 Dizs(CC,D) 大 于 给 定 阔 值 , 视 C.D 相 离 ,反之 视 C.D 不 存在 相 离 
关系 。 


8.6 基于 Jena 的 本 体 推理 机 


Jena 被 设计 成 一 个 具有 三 层 (Layer) 架 构 和 多 种 视图 (View) 的 开发 杠 
架 (Framework) , 它 有 多 种 应 用 程序 开发 接口 提供 给 系统 级 和 应 用 级 的 开发 
人 员 , 具 有 很 高 的 灵活 性 。 具 体 包 括 用 于 对 RDF 文件 和 模型 进行 处 理 的 
RDF API, 用 于 对 RDF、RDFS、OWL 文件 (基于 XML 语法 ) 进 行 解析 的 解 
析 器 ,RDF 模型 的 持续 性 存储 方案 ,用 于 检索 过 程 推理 的 基于 规则 的 推理 机 
子 系统 [中 ,用 于 对 Ontology 进行 处 理 和 操作 的 Ontology 子 系统 ,用 于 信息 
搜索 的 RDQL 查询 语言 。 


8.6.1 内 置 推理 机 


推理 功能 是 Jena 中 的 一 个 子 系统 ,目的 在 于 将 推理 机 制 与 推理 器 引入 
到 Jena 系统 中 。Jena 提供 的 是 基于 规则 的 推理 机 ,例如 RDF 推理 机 OWL 
推理 机 等 ,除了 可 以 通过 这 些 推理 机 进行 一 般 推 理 外 ,用 户 还 可 以 自 定义 推 
理 规 则 ,或 者 是 引入 其 他 推理 引擎 ,如 Racer, Pellet 等 。 考 虑 到 不 同 层次 的 
推理 需求 ,Jean 语义 Web 编程 框架 支持 4 种 内 置 的 推理 机 ,在 实际 应 用 中 ， 
应 根据 推理 的 需求 选用 适当 的 推理 模式 。 下 面 以 文献 [1] 给 出 的 OWL 样 例 
本 体 为 例 说 明 。 
本 体 描 述 了 Mammal, Human 和 Canine 等 概念 及 其 关系 ,另外 还 建立 
相应 的 个 体 。 同 时 为 了 便于 阅读 ,采用 Turtle 语法 ,基于 三 元 组 的 形式 对 
此 OWL 本 体 进行 序列 化 。 每 一 个 三 元 组 用 谓词 将 不 同 的 概念 联系 起 来 , 同 
一 个 概念 可 以 通过 多 个 谓词 与 其 他 多 个 概念 相 联系 。 用 Turtle 语法 表示 的 
语句 具有 形式 “subject predicate; object; ; predicate; objects ; …predicaten… 


object,” o 
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OWL 样 例 本 体 的 代码 如 下 : 


# 以 下 定义 命名 空间 前 绥 

@ prefix ex: — http: //example.org € >. 

@ prefix rdf: — http://www. w3.0rg/1999/02/22-rdf-syntax. ns & >. 

(9) prefix rdfs: — http://www. w3.0rg/2000/01/rdf-schema # >. 

@ prefix owl: http://www. w3.0rg/2002/07/owl & >. 

## 以 下 定义 了 7 个 类 (概念 ) 

ex: Mammal rdf: type owl: Class. 

ex: Human rdf: type owl: Class; rdfs: subClassOf ex: Mammal. 

ex: Canine rdf: type owl: Class; rdfs: subClassOf ex: Mammal; 

owl: equivalentClass[rdf: type owl: Restriction; owl: onProperty ex: breed; 
owl: someValuesFrom ex: Breed]. 

ex: PetOfRyan rdf: type owl: Class; owl: intersectionOf 

(ex: Mammal[rdf: type Owl: Restriction; owl: onProperty ex: hasOwner; 
owl: hasValue ex: Ryan]). 

ex: Breed rdf: type owl: Class. 

ex: LargeBreed rdf: type owl: Class: rdfs: subClassOf ex: Breed. 

ex: SmallBreed rdf: type owl: Class; rdfs: subClassOf ex: Breed. 

# 以 下 定义 了 2 个 数据 类 型 属性 

ex: name rdf: type owl: DatatypeProperty. 

ex: registeredName rdf: type owl: DatatypeProperty: rdfs: subPropertyOf ex: name. 
## 以 下 定义 了 3 个 对 象 属性 

ex: breed rdf: type owl: ObjectProperty. 

ex: hasOwner rdf: type owl: ObjectProperty. 

ex: owns rdf: type owl: ObjeetProperty; owl: inverseOf ex: hasOwner. 

EVIL EBAHEDA T OWL 知识 库 的 TBOX 

# 以 下 定义 了 5 个 实例 (个 体 ), 构 成 了 知识 库 的 ABOX 

ex: GoldenRetriever rdf: type ex: LargeBreed. 

ex: Chihuahua rdf: type ex: SmallBreed. 

ex: Ryan rdf: type ex: Human; ex::name“Ryan Blace”; ex: owns ex: Daisy. 
ex: Daisy rdf: type ex: Canine; ex: name"Daisy" ; ex: breed ex: GoldenRetriever; 
ex: registeredName" Morning Daisy Bathered in Sunshine". 

ex: Amber rdf: type ex: Mammal; ex: name "Amber"; ex: breed ex: GoldenRetriever. 


(D RDFS 推理 机 : 支持 RDFS 蕴含 ,实现 基于 RDFS 中 类 和 属性 的 关 
系 进行 推理 。 对 样 例 OWL 本 体 采 用 RDFS 推理 机 进行 推理 ,可 以 得 到 如 
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K 8-3 所 示 的 关于 个 体 的 隐 含 信息 。 

(2) 传递 推理 机 : 仅 支 持 RDFS 中 对 称 属性 和 传递 属性 的 蕴含 。 如 可 
以 对 家 族 本 体 中 的 hasSibling 属性 进行 这 种 类 型 的 推理 。 

G) OWL 推理 机 : 支持 OWL 蕴含 的 推理 ,涉及 到 的 OWL 构造 包括 
sameAs、SymmetricProperty 和 maxCardinality 等 。 目前 ,Jena 对 OWL HÈ 
理 的 支持 还 不 够 完备 。 对 示例 本 体 数据 采用 OWL 推理 机 进行 推理 ,可 以 推 
出 如 表 8-4 所 示 的 关于 个 体 的 隐 含 信息 。 

(4) 通用 规则 引擎 : 该 引擎 包含 了 其 自身 的 规则 语言 和 实用 的 方法 ,可 
以 构建 出 if/then 形式 的 规则 。 一 般 将 规则 保存 在 程序 中 的 字符 串 或 项 目的 
rules 文件 中 ,规则 的 格式 如 下 : 


[规则 名 : (三 元 组 ), (三 元 组 ),… (三 元 组 ,) 下 (三 元 组 ,+1)] 

其 中 ,前 n 个 三 元 组 为 规则 的 前 提 , 第 n 十 1 个 三 元 组 为 规则 的 结论 ,每 
个 三 元 组 具有 形式 : subject predicate object。 其 中 subject 和 object 分 别 为 
主语 和 宾语 ,一 般 为 概念 ,而 predicate 为 谓词 ,一 般 为 对 象 属性 。 如 家 族 本 
体 中 ,已 知 A hasSibling B,B has Daughter C, 则 蕴含 有 A hasNiece C, 但 基 
于 前 面 几 种 内 置 的 推理 机 无 法 实现 这 一 功能 ,此 处 定义 推理 规则 rule 
hasNiece, 规 则 定义 如 下 : 


[rule hasNiece: (?A family: hasSibling? B), (? B family: hasDaughter?C) 一 (?A 
family: hasNiece?C)] 


通过 以 下 语句 即 可 以 创建 通用 规则 引擎 ; 


Reasoner ruleReasoner— new GenericRuleReasoner( Rule. parseRules( rules) ) 


8.6.2 在 Jena 中 集成 外 部 推理 机 


外 部 推理 机 可 以 通过 两 种 方式 集成 到 Jena 中 : 在 Java 的 classpath 中 
直接 添加 . jar 文件 或 类 文件 ,或 者 通过 远程 DIG 接口 来 实现 。 一 般 通 过 设 
置 classpath 来 实现 外 部 推理 机 集成 的 方法 比较 方便 高 效 ,因为 不 需要 任何 
网 络 来 和 推理 机 进行 交互 。Pellet 是 基于 Java 的 OWL-DL 推理 机 ,因此 提 
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供 了 非常 方便 的 包含 .jar 的 接口 , 非 基于 Java 的 推理 机 通过 提供 TNT 接口 
也 可 以 提供 这 样 的 访问 。 由 于 Pellet 几乎 支持 OWLI 和 OWL2 的 所 有 
特征 ,是 一 款 合理 完备 的 推理 机 , 且 对 SWRL 提供 很 好 的 支持 ,所 以 通 
过 县 加 Pellet 可 以 明显 提高 Jena 推理 的 完备 性 ,弥补 了 单纯 使 用 Tena Hë 
理 机 带 来 的 不 足 。 

对 Pellet 推理 机 的 集成 方式 和 Jena 内 部 推理 机 很 类 似 , 使 用 
PelletReasO0nerFactOry. theInstance( ). create( ) 创 建 一 个 Jena 推理 机 对 
象 ,推理 机 对 象 绑 定 到 模式 的 方式 也 和 Jena 内 部 推理 机 一 样 。 示 例 代 
码 为 : 

Reasoner reasoner— PelletReasonerFaetory. thelnstance( ) . create( ) ; 


reasoner— reasoner. bindSchema( ontModel) ; 
InfModel infmodel= ModelFaetory. createInfModel( reasoned, ontModel) ; 


如 果 一 个 推理 机 不 允许 通过 Java 的 . jar 文件 来 直接 访问 , 则 Jena HE 
架 还 支持 DIG 接口 。 这 是 一 种 标准 的 推理 机 接口 ,是 关于 通过 HTTP 
协议 访问 描述 逻辑 处 理 的 一 个 XML fiie. EXIT Pellet 推理 机 后 ,以 
上 家 族 本 体 中 的 hasNiece 规则 ,可 以 写成 以 下 的 SWRL 规则 : 


hasSibling(?,?Y)^hasDaughter(?Y,?z) 一 hasNiece(? ,?z) 


实验 和 研究 表明 ,通过 推理 机 琶 加 ,一 方面 利用 了 外 部 推理 机 Pellet 
对 具有 推理 完备 性 和 可 判定 性 的 OWL DL 的 支持 , 另 一 方面 也 充分 发 
挥 了 自 定 义 规则 灵活 广泛 的 优势 55 。 这 种 亚 加 是 目前 使 用 开源 软件 
能 够 实现 的 一 种 功能 较 强 、 结 果 较 完备 的 语义 推理 机 解决 方案 ,但 如 果 
实现 商业 化 的 基于 大 型 本 体 知 识 库 的 语义 推理 和 应 用 ,Racer 推理 引擎 
则 是 更 好 的 选择 。 
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目前 在 Web 上 进行 的 信息 检索 主要 是 利用 搜索 引擎 ,进行 基于 字符 的 
关键 字 匹配 检索 。 尽 管 搜索 引擎 在 一 定 程度 上 避免 了 用 户 浏览 网 络 信息 的 
盲目 性 ,给 用 户 带 来 了 便利 ,但 是 这 种 检索 方式 的 主要 问题 是 在 返回 大 量 不 
相关 的 结果 的 同时 却 又 漏 掉 了 一 些 相 关 页 面 ,在 很 大 程度 上 无 法 满足 用 户 
的 需求 。 面 对 网 络 信息 量 的 激增 ,传统 的 基于 信息 定位 的 Web 信息 表示 方 
法 ,使 得 现 有 信息 检索 面临 前 文中 所 述 的 困难 和 窖 境 。 因 此 ,改进 现 有 的 信 
息 检 索 技术 ,提高 信息 检索 质量 和 效果 的 重要 方法 之 一 ,就 是 以 一 种 更 容易 
被 机 器 处 理 的 表示 方法 来 描述 Web 上 的 信息 ,而 语义 Web 是 目前 一 个 较 好 
的 、. 相 对 与 继续 使 用 现 有 信息 表述 方法 而 开发 文本 处 理 技术 更 容易 的 、 解 决 
上 述 问题 的 选择 ,为 语义 检索 和 基于 知识 库 的 知识 发 现 提供 技术 基础 。 因 
此 ,建立 基于 语义 Web 的 知识 发 现 方法 具有 实际 意义 和 较 高 学 术 价 值 。 

语义 检索 是 将 人 工 智 能 技术 与 自然 语言 处 理 技术 结合 ,从 语义 理解 的 
角度 分 别 对 信息 资源 ,用户 查询 请 求 进行 分 析 的 信息 检索 方法 ,其 检索 方式 
是 基于 知识 .语义 的 匹配 。 通 过 一 系列 词 表 控 制 法 .概念 空间 .语义 网 络 . 语 
料 库 控制 .语义 本 体 等 方法 能 够 实现 对 概念 与 概念 间 语 义 的 描述 。 词 表 控 
制 法 、 概 念 空间 ,语义 网 络 、 语 料 库 控制 等 方法 都 利用 词汇 在 概念 上 的 相关 
性 ,形成 专业 的 手工 词 表 或 者 机 器 学 习 生 成 的 关联 概念 空间 ,这 些 方法 一 个 
明显 的 不 足 就 是 对 概念 关系 的 描述 刻画 程度 有 限 。 例 如 ,主题 词 表 只 反映 
词 间 关 系 ,无 法 表现 公理 ,规则 等 ,概念 空间 表达 的 多 是 概念 间 相 关 词 的 集 
f. 这些 方法 在 一 定 的 程度 上 解决 了 基于 关键 字 检 索 的 不 足 ,但 只 是 一 种 初 
级 的 语义 检索 方法 ,不 能 更 好 地 理解 用 户 的 检索 意图 和 关键 字 所 表达 的 语义 。 

语义 本 体 比 上 述 方法 有 更 为 丰富 的 语义 表示 途径 ,具有 良好 的 概念 层 


250 本 体 建 模 与 语义 Web 知识 发 现 


次 结构 ,通用 的 本 体 建 模 元 语 , 利 用 概念 之 间 的 关系 对 概念 语义 进行 表达 ， 
能 很 好 地 支持 逻辑 推理 ,在 语义 、 知 识 层面 描述 信息 资源 的 概念 模型 ,适合 
知识 的 表达 和 网 络 环境 下 的 知识 共享 和 互 操作 ,这 些 特性 为 语义 检索 提供 
了 良好 的 框架 结构 和 知识 基础 。 基 于 领域 本 体 的 语义 检索 实质 上 是 把 借助 
领域 本 体 规范 后 的 检索 请 求 按 领域 与 标注 后 的 信息 源 索 引 库 进 行 语义 匹 配 
和 语义 推理 ,并 提交 给 检索 系统 的 过 程 中 。 基 于 领域 本 体 对 术语 的 严格 描 
述 和 定义 ,以 及 反映 术语 间 关 系 的 语义 网 络 ,可 以 实现 对 查询 请 求 和 信息 源 
知识 的 规范 处 理 。 把 本 体 技术 引入 知识 发 现 领域 之 后 ,就 可 以 实现 对 某 一 
领域 内 信息 和 知识 的 检索 , 较 好 地 处 理 一 义 多 词 .一 词 多 义 所 导致 的 问题 ， 
实现 语义 化 的 知识 资源 发 现 。 


9.1 语义 检索 和 知识 发 现 


知识 发 现 是 一 个 从 数据 中 发 现 知识 的 过 程 , 其 核心 是 数据 挖掘 , 即 通过 
聚 类 ,关联 规则 分 析 等 技术 挖掘 信息 的 频繁 模式 。 基 于 知识 库 的 知识 发 现 
核心 是 挖掘 隐 含 的 知识 ,通过 语义 检索 和 本 体 推理 技术 完成 。 

基于 概念 匹配 的 语义 检索 系统 必须 具备 一 定 的 知识 体系 来 表达 概念 及 
概念 间 的 逻辑 语义 关系 ,该 知识 体系 以 不 同 的 类 目 分 类 (继承 ) 而 具有 层次 
性 , 因 不 同 的 本 体 联 想 ( 语 义 关联 ) 而 形成 一 个 语义 网 络 。 在 知识 层面 或 者 
在 概念 层面 上 建立 的 语义 检索 ,能 提供 给 用 户 一 个 缩小 或 扩大 的 检索 范围 ， 
以 获得 某 个 概念 的 上 位 概念 、 下 位 概念 以 及 平 级 概念 等 ,通过 概念 的 缩放 ， 
获得 概念 所 对 应 的 知识 对 象 。 另 外 采用 文献 [2] 中 所 述 的 计算 本 体 之 间 的 
相似 度 和 相关 度 方法 ,在 语义 检索 的 同时 计算 本 体 之 间 的 相似 度 和 相关 度 ， 
向 用 户 提供 有 价值 的 参考 信息 ,智能 性 地 帮助 用 户 进行 有 效 的 知识 检索 和 
知识 导航 。 

本 体形 成 了 概念 及 其 关系 的 分 类 化 、 层 次 化 ,使 得 语义 检索 能 实现 复杂 
的 语义 关系 。 本 文 按 照 从 上 而 下 的 思想 将 知识 的 组 织 形式 分 成 三 层 , 概 要 
分 析 如 下 : 
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CD 本 体 层 : 主要 由 分 类 本 体 构 成 了 一 个 树 形 层次 分 类 结构 ,形成 分 类 
念 空间 ,为 基于 概念 匹配 的 语义 检索 提供 基础 ; 

(2) 元 数据 描述 层 : 主要 对 各 种 分 布 的 知识 对 象 进行 元 数据 描述 ,建立 
知识 对 象 的 元 素 属性 与 值 之 间 的 对 应 关系 ,实现 非 结构 、 半 结构 化 知识 的 结 
构 化 处 理 ; 

G) 网 络 资源 层 : 是 Internet 和 Intranet. 上 具体 的 非 结 构 、 半 结构 化 知 
识 对 象 资源 ,也 是 知识 检索 最 终 要 定位 的 具体 资源 。 

三 层 结构 的 设计 机 理 是 : 通过 对 类 型 层 的 概念 空间 进行 概念 匹配 实现 
语义 检索 ,由 该 概念 在 中 间 描 述 层 发 现 与 其 链接 的 实例 主题 及 元 数据 描述 ， 
由 该 实例 主题 通过 URI 找到 具体 的 网 络 知 识 资源 ,从 而 实现 从 概念 到 具体 
知识 对 象 的 定位 过 程 。 

语义 检索 中 最 常 遇见 的 难题 是 同 义 异 形 和 同形 异 义 关系 的 解决 。 同 义 
异形 关系 的 解决 ,可 以 采用 如 下 两 种 方式 实现 : 

方法 一 ,在 本 体 信息 和 知识 对 象 标注 时 ,在 本 体 库 中 只 对 同 义 关系 集合 
中 的 一 个 元 素 建立 主题 ,通过 在 该 主题 上 维护 同 义 集合 实现 存储 同 义 元 素 。 
这 实质 上 是 对 同 义 集合 中 的 元 素 赋予 同样 的 标识 ,进行 了 统一 化 处 理 , 从 而 
屏蔽 它们 相互 之 间 形 式 上 的 差异 。 在 检索 时 ,将 同 义 集合 中 元 素 匹 配 检索 
项 ,以 此 形成 同 义 检索 的 结果 集 ; 

方法 二 ,在 本 体 库 中 对 同 义 关 系 集合 中 的 元 素 建立 同 义 关 联 。 假 如 用 
户 输入 检索 项 ,检索 子 系统 首先 对 检索 项 进行 概念 匹配 检索 ,其 次 是 在 同 义 
关联 中 寻找 同 义 项 ,然后 对 同 义 项 再 实现 匹配 检索 ,并 最 终 形成 同 义 检索 结 
果 返 回 给 用 户 。 

另外 ,对 于 后 期 形成 的 同 义 异 形 关 系 还 可 进行 本 体 映 射 。 采 用 不 同 的 
本 体 描 述 语 言 来 组 织 知识 的 系统 也 将 采用 不 同 的 方法 来 解决 该 问题 ,如 基 
于 Topic Map 本 体 的 知识 检索 系统 使 用 第 一 种 方法 ,而 采用 RDF(S)、OWL 
作为 本 体 描 述 语言 的 系统 通常 采用 第 二 种 方法 ,如 OWL 中 采用 构造 子 
sameClassAs、samePropertyAs、equivalentTo 等 形成 了 概念 间 的 同 义 关系 。 

对 于 同形 异 义 词 ,在 知识 组 织 时 ,可 采用 一 定 的 限定 词 来 界定 词 在 特定 
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上 下 文中 的 含义 ,例如 ,在 基于 TopicMap 本 体 的 知识 检索 系统 中 ,采用 
Scope 来 限定 范围 ,如 果 某 个 主题 的 Scope 是 computer software, 则 该 主题 
代表 计算 机 操作 系统 方面 的 文献 ; 如 果 其 Scope 是 plane operation, WRZ 
是 操作 飞机 系统 的 文献 资料 。 在 基于 RDF(S) OWL 等 知识 组 织 方式 的 本 
体检 索 系 统 往往 通过 概念 的 上 下 位 关系 来 减少 歧义 干扰 或 者 通过 强制 加 上 
下 文 约束 排除 歧义 的 干扰 。 可 见 , 知 识 检索 的 性 能 离 不 开 有 效 的 知识 组 织 。 

本 体 可 以 严格 对 概念 进行 描述 和 定义 .反映 概念 之 间 的 语义 关系 ,是 对 某 
个 领域 知识 的 共同 理解 和 描述 , 它 为 语义 检索 提供 了 良好 的 知识 基础 。 在 基 
于 本 体 的 语义 检索 模型 中 ,对 查询 条 件 进 行 了 语义 层面 的 处 理 , 表 现 为 语义 扩 
展 。 利 用 本 体 中 定义 的 规范 的 概念 作为 索引 项 来 对 文档 和 用 户 查 询 进行 描 
述 ,而 利用 语义 索引 项 来 表示 文档 和 查询 最 重要 的 好 处 就 是 对 用 户 的 查询 请 
求 可 以 进行 基于 本 体 的 语义 扩展 ,从 语义 的 角度 对 用 户 查 询 进 行 分 析 中 。 主 
要 的 本 体 扩 展 包括 同 义 扩展 .属性 扩展 、 上 位 扩展 、 下 位 扩展 、 实 例 扩展 等 。 

语义 信息 检索 模型 ( 见 图 9-1) 具 有 下 述 功能 : 

CD 具有 语义 推理 能 力 。 一 定 的 语义 推理 能 力 是 基于 本 体 语义 检索 系 
统 相 较 于 传统 信息 检索 系统 明显 的 进步 ,不 但 能 够 检索 出 明显 的 用 户 和 需求 
信息 ,而 且 还 能 根据 一 定 的 规则 和 公理 推导 出 隐 含 的 知识 。 

(2) 具有 语义 扩展 能 力 。 利 用 本 体 模 型 对 检索 式 进行 相关 概念 间 关 系 
的 描述 ,对 用 户 使 用 的 查询 概念 ,自动 进行 语义 的 扩展 , 即 对 查询 概念 的 同 
义 词 上 位 词 、 下 位 词 进行 相关 的 扩展 、 泛 化 等 操作 ,这 样 可 以 提高 查 全 率 和 
查 准 率 。 


与 关键 字 
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图 9-1 基于 本 体 的 语义 检索 模型 
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(3) 传统 的 信息 检索 方法 是 将 用 户 输入 的 检索 关键 字 与 信息 资源 库 中 
的 索引 词 按照 字符 进行 匹配 ,检索 目标 结果 的 方法 ,检索 系统 只 是 把 关键 词 
作为 一 种 标示 符号 ,无 法 理解 其 所 含有 的 语义 信息 。 例 如 ,用 户 检索 “美洲 
住宿 费 标准 ”, 传 统 的 检索 系统 只 返回 含有 “美洲 住宿 费 标准 ”字样 的 检索 结 
果 , 而 只 含 “80 元 /人 ， 天 ”的 检索 结果 将 没有 办 法 被 系统 直接 检索 出 来 。 基 
于 领域 本 体 的 语义 检索 系统 的 核心 思想 是 加 入 领域 本 体 作为 进行 检索 匹配 
和 推理 的 核心 部 件 ,与 传统 的 检索 方式 相 比 , 增 加 了 本 体 推理 层 。 本 体 层 的 
作用 过 程 如 图 9-2 所 示 。 
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文档 合集 | 
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本 体 实例 
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文档 资源 库 
CD 


图 9-2 ”基于 本 体 的 语义 检索 -本 体 作用 过 程 图 
9.2 基于 本 体 的 语义 检索 关键 技术 


基于 本 体 的 语义 检索 的 核心 技术 是 语义 推理 ,涉及 推理 机 机 制 、 推 理 规 
则 生成 和 查询 语言 转换 等 关键 技术 。 


9.2.1 基于 描述 逻辑 的 推理 机 


RACER 最 早 是 由 德国 的 University of Hamburg 开发 的 ,之 后 加 拿 大 
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的 Concordia University 和 德国 University of Applied Sciences 也 参与 了 开 
发 。RACER 是 一 个 知识 表示 系统 ,可 以 提供 DL 中 TBox 和 ABox 推理 功 
能 。 同 时 RACER 采用 的 算法 是 Tableaux 演算 ,而 Tableaux 算法 是 一 种 有 
效 的 描述 逻辑 系统 的 推理 方法 。 因 此 ,使 用 基于 Tableaux 算法 的 RACER 
推理 机 ,可 以 有 效 地 处 理 基 于 描述 逻辑 的 OWL DL 本 体 。 图 9-3 是 RACER 
推理 机 的 工作 流程 图 。 


OWLDL 
应 用 程序 


RACER 推 理 


图 9-3 RACER 推理 机 的 工作 流程 图 


如 图 9-3 所 示 , 首 先 将 OWL DL 本 体 输入 ,经 过 RACER 的 解释 器 可 以 
解析 为 ABox 和 TBox。 其 中 ABox 主要 由 三 元 组 组 成 , 即 主体 、 谓 词 和 客 
体 ,同时 任何 一 个 主体 或 者 客体 又 可 以 是 其 他 三 元 组 的 主体 或 者 客体 。 将 
解析 后 的 ABox 和 TBox 进行 Tableaux 推理 。RACER 推理 系统 可 以 使 用 
JRacer 的 Java API 来 与 RACER 系统 进行 TCP 通信 ,同时 可 以 使 用 nRQL 
(new Racer Query Language) 获 取 实 例 的 解析 数据 。JRacer 中 的 Java API 
可 以 方便 实现 RACER 和 nRQL 到 Java 类 的 转化 。OWL 本 体 通 过 
RACER 的 内 部 解析 机 进行 本 体 的 解析 后 ,通过 相应 的 API 实现 与 其 他 程序 
的 接口 。 

描述 逻辑 推理 机 RACER 的 推理 功能 如 下 : 

A) TBox 的 一 致 性 检测 ; 

(2) TBox 的 包含 关系 检测 ; 

(3) 发 现 TBox 中 定义 的 所 有 概念 是 否 存在 不 一 致 ; 

(4) 确定 TBox 的 一 个 概念 的 双亲 和 孩子 关系 ; 

(5) 检测 一 个 TBox 与 Abox 是 否 一 致 。 
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9.2.2 基于 规则 的 推理 机 


Jena 是 由 美国 惠普 实验 室 (HP Laboratory) 为 语义 网 研究 项 目 开 发 的 
一 套 开放 源 代码 的 数据 包 , 目 的 是 建立 基于 语义 网 的 系统 结构 ,使 其 可 以 在 
Java 系统 中 解析 数据 信息 , 它 为 RDF、RDFS 和 OWL 提供 了 一 个 可 编程 实 
现 的 环境 ,具有 很 好 的 稳定 性 和 通用 性 。 通 过 Jena 提供 的 OWL API 接口 、 
SPARQL 查询 接口 和 本 体 推理 机 接口 ,可 以 编写 基于 本 体 的 数据 集成 .语义 
检索 等 智能 应 用 程序 。 

Jena 目前 包括 两 个 版 本 : 

COD Jenal: 它 包 含 了 对 RDF 的 操作 的 API 和 RDQL; 

(2) Jena2: 能 够 处 理 OWL、DAML 十 OIL 的 API, 是 Jena 的 最 新 版 本 。 
这 里 提 到 的 Jena 都 指 的 是 Jena2, Jena 框架 中 的 推理 机 主要 由 如 图 9-4 所 
示 的 部 分 构成 ,这 些 组 成 部 分 是 处 理 语义 Web 环境 下 的 语义 检索 的 重要 组 

Jena 的 各 个 组 成 部 分 包括 : 

(1) ARP(Another RDF Parser); ARP 当前 的 版 本 是 ARP2, 这 个 RDF 
解析 器 在 最 新 的 RDF 标准 上 进行 了 改进 , ARP 在 Jean 中 的 作用 是 解析 
RDF/XML 格式 信息 文件 , 即 Jena 中 的 RDF 文件 的 获取 ,当然 也 能 够 独立 
于 Jena 而 应 用 到 其 他 Java 程序 中 ,但 是 要 求 JRE1. 4 以 上 的 版 本 ; 

(2) RDF API: RDF API 主要 功能 是 对 RDF 模型 进行 相应 的 处 理 , 在 
Jean 中 有 很 多 接口 来 访问 RDF 模型 ,主要 是 com. hp. hpl. jena. rdf. model 43; 

(3) Ontology API: Ontology API 主要 用 来 为 OWL、DAML 十 OIL 和 
RDFS 等 以 RDF 格式 存储 的 程序 开放 提供 支持 ,主要 是 com. hp. hpl. jena. 
ontology f; 

(4) 推理 子 系统 : 主要 功能 是 通过 引入 相关 推理 引擎 完成 对 RDFS 和 
OWL 的 规则 推理 ,用 户 也 可 以 自 定 义 一 些 规则 。 推 理子 系统 是 与 Ontology 
API 相互 紧密 连接 的 ,使 其 能 够 通过 推理 得 到 一 个 特定 的 本 体 源 的 更 多 信 
息 ,主要 是 com. hp. hpl. jena. reasoner 包 。 
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InfModel/OntModel 


RDQL 


—— 


搜索 结果 


图 9-4 Jena 的 组 成 部 分 


若 需 要 在 Jena 中 获取 一 个 推理 机 ,可 以 选择 以 下 几 种 方法 : 

(1) 工厂 方法 : 每 个 推理 机 有 含有 推理 机 工厂 (Reason Factory) 类 ， 
一 个 实例 Reasoner 是 通过 调用 推理 机 工厂 类 的 静态 方法 getInstance() 
获得 。 

(2) 推理 机 注册 器 : Jena 提供 了 一 个 全 局 的 推理 机 注册 (Reasoner 
Registry) ,推理 注册 机 根据 已 经 创建 或 读 人 RDF 三 元 组 描述 的 信息 资源 和 
Ontology 内 包含 的 信息 利用 规则 创建 出 推理 机 。 

(3) Jena 自 带 的 基于 一 般 规则 的 推理 机 : 这 种 形式 的 推理 机 是 在 自 定 
义 规则 的 基础 上 实现 的 。 推 理 机 对 推理 的 完成 是 通过 一 些 可 以 解释 推理 规 
则 的 引擎 。 具 体 的 引擎 有 前 向 链 引 擎 、 后 项 链 引 擎 以 及 混合 式 规则 引擎 。 
至 于 推理 规则 ,用 户 可 以 按照 自身 具体 要 求 来 制定 个 性 化 规则 ,再 根据 这 些 
规则 来 选择 特定 的 推理 机 ,使 用 第 三 方 推理 机 。 当 然 , 也 可 以 使 用 Jena 之 外 
的 推理 机 ,他们 可 以 和 Jena 集成 。 

(4) 本 体 共性 规范 (OntModelSpaec) 方 法 : 当 用 户 用 Ontology API 时 ， 
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用 户 能 够 指定 一 个 模型 规范 (OntModelSpaec) 赋 予 一 个 模型 , 即 同 时 能 够 建 
立 一 个 与 之 对 应 的 推理 机 。 


9.2.3 推理 规则 语言 SWRL 


本 体 用 于 语义 查询 系统 的 一 个 重要 原因 在 于 本 体 是 建立 在 逻辑 基础 上 
的 ,这 使 得 数据 源 中 的 一 些 隐 含 的 概念 或 关系 可 以 被 发 现 ,也 就 决定 了 基于 
描述 逻辑 的 本 体能 够 支持 对 用 户 查询 的 推理 处 理 。 但 是 本 体 的 语义 表达 能 
力 还 是 有 局 限 性 的 ,其 表达 能 力 局 限于 描述 逻辑 ,不 能 表示 一 般 形式 的 规 
则 ,更 不 能 表示 涉及 时 空 关 系 的 连续 变化 的 事件 流 或 是 基于 统计 数据 的 不 
确定 知识 。 

2003 年 11 月 DARPA 组 织 提 出 了 一 套 语义 Web 规则 语言 SWRL。 
SWRL 是 集 本 体 和 规则 于 一 体 的 一 种 语言 ,由 RuleML 演变 而 来 ,一 样 是 
XML Based 的 规则 格式 ,具有 人 机 可 读 的 优点 ,可 较为 清楚 地 表现 规则 之 间 
的 关系 。 此 外 SWRL 可 以 引用 本 体 中 的 元 素来 编辑 规则 ,这 是 和 RuleML 
的 不 同 之 处 。SWRL 在 OWL 中 加 入 了 规则 ,因为 规则 能 够 提供 更 强 的 逻辑 
表达 能 力 ,.OWL 则 不 能 达到 这 样 的 能 力 。 尽 管 SWRL 刚刚 被 研究 ,但 是 一 
阶 逻 辑 已 经 被 很 充分 地 研究 过 了 。 另 外 ,结合 一 阶 逻 辑 也 使 得 SWRL 可 以 
容易 地 与 传统 的 关系 数据 库 进行 交流 。 

本 体 的 构造 采用 OWL 语言 , 它 是 语义 检索 的 前 提 , 参 数 约束 及 规则 采 
用 SWRL, 其 表达 要 依靠 OWL 语言 来 建立 基本 的 术语 及 关系 ,所 以 规则 的 
建立 采用 的 是 OWL 十 SWRL HJER, 

对 本 体 中 大 部 分 的 内 容 参数 约束 可 以 使 用 OWL 中 的 值 约束 、 基 数 约束 
等 表达 ,但 是 外 部 参数 、 隐 含 规则 ,或 选择 表达 式 , 例 如 属性 的 组 合 、 限 制 假 
设 , 仅 用 OWL 语言 难以 表达 ,需要 借助 SWRL。SWRL 主要 由 Imp, Atom, 
Variable fll Building 组 成 ,其 框架 结构 如 图 9-5 所 示 。 

Imp 是 SWRL 的 规则 部 分 ,包括 head 和 body, 其 中 head 表示 推理 的 结 
果 ,body 表示 推理 前 的 状态 。head 和 body 所 使 用 的 instance 是 由 Atom 或 
Variable 提供 的 。 
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SWRL Imp | head 
一 body 
Atom | Built-inAtom 


Variable H ClassAtom 


Building 一 DataRangeAtom 


|| DatavaluedPropertyAtom 
H IndividualProperty Atom 
H DifferentFromAtom 


图 9-5 SWRL 语言 架构 


Atom 是 head 和 body 允许 出 现 的 基本 成 分 ,在 推理 的 结果 head 中 只 
允许 出 现 一 个 Atom, 而 在 推理 前 的 状态 body 中 ,可 以 是 多 个 Atom 的 合 
JR, 在 SWRL 中 ,利用 本 体 中 的 实例 和 属性 来 建立 Atom 子 句 。 其 中 本 体 
的 实例 作为 Atom 的 参数 ,本 体 的 属性 作为 Atom 的 属性 。 图 9-6 说 明了 
Atom 与 本 体 的 关系 。 


SWRL Ontology 


Instance 


Property Predicate 


Atom Argument] 


Argument2 


图 9-6 Atom 和 本 体 关 系 
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Variable 用 于 定义 Atom 中 使 用 的 变量 ,在 Atom 包含 许多 限制 式 , 主 
要 有 以 下 四 种 : 

(D C G0: C 是 OWL 描述 ; 

(2) P (x,y): P Æ OWL 的 属性 ,x,y 可 以 是 变量 .OWL individuals 或 
OWL data valuea; 

(3) SameAs(x.y): x fl y 相等 ; 

(4) DifferentFrom(x.y): x &H y Alij. 

Building 用 于 定义 SWRL 中 的 各 种 逻辑 比较 关系 ,它们 分 别 用 于 数值 
比较 ,数学 计算 ,布尔 运算 .字符 串 操作 、 时 间 和 日 期 `URIS 和 列表 ,等 等 。 
其 中 用 于 数值 比较 的 Building 参见 表 9-1。 


X 9-1 SWRL Building 数值 比较 


swrl:Building Example 
Equal Argument— Argument2 
notEqual Argument Argument2 
lessThan Argument< Argument2 
lessThanOrEqual Argument Argument2 
greaterThan Argument-^ Argument2 
greater ThanOrEqual ArgumentZ* Argument2 


SWRL 的 表示 方式 主要 有 两 种 ,如 图 9-7 所 示 。 一 种 是 XML 的 表达 方 
式 , 以 RuleML 十 OWLX 的 方式 描述 ; 另 一 种 是 RDF 的 表达 方式 ,以 OWL 
十 RDF 的 方式 描述 。 


SWRL 


XML Syntax | RDF Syntax 


X x 
RuleML| * | OWLX OWL |* | RDF 


9-7 SWRL 的 表示 方式 


以 XML 作为 表达 方式 的 优点 : 
CD 任意 OWL 的 类 可 以 作为 谓词 (predicates) 在 规则 中 出 现 ; 
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(2) 规则 和 本 体 的 公理 (axiom) 可 以 混用 ; 

(3) 可 以 通过 XSLT 将 OWLX 转换 为 其 他 语法 ; 

(4) 现存 的 RuleML 工具 可 以 继续 编辑 SWRL。 

RDF 方式 则 是 直接 使 用 语义 网 的 标准 语言 进行 描述 ,因为 能 直接 针对 
OWL 所 建立 的 本 体 结合 ,不 需要 经 过 其 他 的 转换 ,SWRL 中 的 格式 也 由 
OWL 格式 所 规范 。 以 这 种 方式 所 设计 的 规则 ,最 大 的 好 处 在 于 内 部 的 变量 
都 是 RDF 的 方式 表示 ,变量 本 身 就 是 RDF 的 形式 ,可 使 得 将 变量 对 应 到 本 
体 的 工作 较为 简单 。 而 以 RuIeML 的 方式 表示 ,变量 只 是 单纯 的 文字 比 对 ， 
这 些 变量 本 身 并 不 带 有 实际 资源 的 意义 。 

SWRL 的 两 种 表示 方式 的 语法 结构 是 完全 相同 的 ,只 是 表达 方式 的 不 
I], 规则 是 以 SWRL 语法 格式 进行 描述 的 ,SWRL 规则 本 身 建立 在 OWL 
本 体 之 上 ,可 以 结合 已 有 的 OWL 知识 库 中 的 信息 来 建立 SWRL 规则 库 , 它 
和 OWL 知识 库 是 整个 推理 框架 的 核心 。 


9.2.4 语义 查询 语言 的 转换 


在 语义 检索 中 ,检索 者 必须 熟悉 本 体 的 语法 .形式 化 查询 语言 .目标 本 
体 的 结构 和 词汇 等 ,才能 完成 检索 。 为 了 方便 检索 ,输入 采用 自然 语言 。 因 
此 ,在 这 个 阶段 需要 将 自然 语言 转换 为 语义 查询 语言 SPARQL5 , 

SPARQL (Simple Protocol and RDF Query Language), 是 为 RDF 开 
发 的 一 种 查询 语言 和 数据 获取 协议 ,是 为 W3C 所 开发 的 RDF 数据 模型 所 
定义 ,但 是 可 以 用 于 任何 可 以 用 RDF 来 表示 的 信息 资源 。SPARQL 协议 和 
RDF 查询 语言 (SPARQL) 于 2008 年 1 月 15 日 正式 成 为 一 项 W3C 推荐 标 
准 , 它 将 Web2.0 和 Semantic web 两 种 新 的 web 技术 联系 起 来 ,很 有 可 能 成 
为 将 来 的 主流 网 络 数据 库 的 查询 语言 和 数据 获取 标准 。 

SPARQL 查询 语言 是 在 RDF 查询 语言 (如 rdfDB.RDQL 和 SeRQL) 基 
础 之 上 构建 的 功能 更 强大 的 RDF 查询 语言 。 它 包括 两 个 独立 的 部 分 : 查询 
语言 规范 、SPARQL 语言 的 数据 访问 协议 和 返回 查询 结果 的 XML 格式 。 
SPARQL 查询 语言 可 以 完成 下 述 任务 : 
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(1) 通过 URIs 形式 .无 格式 字符 ,空白 结 点 等 形式 提取 相关 信息 ; 

(2) 可 以 提取 RDF FR: 

(3) 在 SPARQL 查询 图 的 基础 上 构建 新 的 RDF 图 。 

SPARQL 查询 语言 为 语义 网 上 的 用 户 提供 了 查询 语言 类 似 于 关系 数据 
库 用 户 所 使 用 的 查询 语言 。 研 究 中 认为 一 个 RDF 图 是 可 以 看 成 是 一 个 二 
段 式 结构 ,包括 主语 .谓语 和 宾语 。SPARQL 查询 语言 的 实质 是 基于 图 模式 
匹配 的 查询 语言 即 二 段 式 结构 模式 ,与 RDF 二 段 结构 很 相似 ,但 是 
SPARQL 查询 的 图 模式 在 主语 .谓语 或 宾语 部 分 用 变量 代替 了 RDF 术语 。 
将 这 些 二 段 结构 组 合 就 能 形成 一 个 基本 图 模式 ,为 了 形成 SPARQL 可 以 识 
别 和 操作 的 模式 ,这 些 图 必须 进行 严格 的 匹配 。SPARQL 查询 语言 的 核心 
语句 包括 两 个 部 分 : 负责 识别 查询 结果 中 的 变量 的 Selec 子 句 ,和 子 句 有 一 
个 二 段 式 结构 模式 的 where 子 句 。 

在 Jena 中 使 用 SPARQL, 可 以 通过 叫 作 ARQ 的 模块 实现 。 除 了 实现 
SPARQL 之 外 ,ARQ 的 查询 引擎 还 可 以 解析 使 用 RDQL 或 者 它 自己 内 部 
的 查询 语言 表示 的 查询 。ARQ 的 开发 很 活跃 ,可 以 从 Jena 的 CVS 仓库 或 
者 自 包 含 的 下 载 文 件 中 获得 它 。 下 载 最 新 的 ARQ 发 行 包 ,对 其 进行 解压 ， 
把 环境 变量 ARQROOT 设置 成 指向 ARQ 目录 即 可 。 还 需要 恢复 ARQ bin 
目录 的 读 取 和 执行 权限 。 如 果 把 bin 目录 添加 到 执行 路 径 中 非常 方便 , 那 是 
因为 它 包 含 从 命令 行 调用 ARQ 的 包装 器 脚本 。 

Java 应 用 程序 可 以 直接 调用 Jena 的 SPARQL 功能 。 通 过 com. hp. 
hpl. jena. query 包 中 的 类 ,使 用 Jena 来 创建 和 执行 SPARQL 查询 。 使 用 
QueryFactory 是 最 简单 的 方法 。QueryFactory 有 各 种 create() 方 法 ,用 来 
从 文件 或 者 String 读 取 文本 查询 。 这 些 create() 方 法 返回 Query 对 象 , 这 个 
对 象 封装 了 解析 后 的 查询 。 

下 一 步 是 创建 QueryExecution 的 实例 ,这 个 类 表示 查询 的 一 个 执行 。 
要 获得 QueryExecution, 通 过 调用 QueryExecutionFactory. create (query, 
model) ,并 传人 要 执行 的 Query 以 及 查询 要 处 理 的 Model, QueryExecution 
有 几 种 不 同 的 执行 方式 ,可 以 调用 exeSelect (), 该 方法 将 返回 一 个 
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ResultSet, ResultSet 在 查询 返回 的 每 个 QuerySolution 上 进行 迭代 ,提供 
了 对 每 个 绑 定 变量 值 的 访问 。 此 外 ,还 可 以 使 用 ResultSetFormatter. 以 不 
同 格式 输出 查询 的 结果 。 因 为 查询 的 数据 是 编程 方式 提供 的 ,所 以 查询 不 
需要 FROM 子 句 。 

SPARQL 允许 以 XML 格式 返回 查询 结果 ,采用 的 格式 叫 作 SPARQL 
变量 绑 定 结果 XML 格式 。 这 个 用 Schema 定义 的 格式 是 RDF 查询 和 XML 
工具 及 库 之 间 的 桥梁 。 这 项 功能 还 有 许多 潜在 用 途 , 可 以 把 SPARQL 查询 
的 结果 通过 XSLT 转换 成 Web 面 或 RSS feed, 通 过 XPath 访问 结果 ,或 者 
把 结果 文件 返回 给 SOAP 或 AJAX 客户 。 要 以 XML 格式 返回 查询 结果 ,请 
使 用 ResultSetFormatter. outputAsSXML() 方 法 ,或 者 在 命令 行 指定 results 


rs/ xml, 
9.2.5 语义 相似 性 排序 


文献 [6j 提 出 的 基于 特征 的 语义 匹配 规则 , 即 : 


Sim(A,B,O) 


Em nus CAO) f) Cu GO) 
nO CAO) N Cus (BO)) + min( Paus CA B.O) } 


区 n GC, CAO) N C4 CB.O) DE 
nY n(GU CAO) N C4CB,O) + ming Pa (ABO) PP 


其 中 C (AOF Cw(B,O) 表 示 在 本 体 树 O 中 ,包含 A FI B 的 概念 数 
fits DF n Cue (A,O) 门 Cowpo(B,O)) 表 示 交 集 的 个 数 ,分 母 中 min{ Pus (A， 
B,0)} 表 示 A.B 的 概念 在 本 体 图 中 的 最 短路 径 。 公 式 中 的 uv、y 为 三 个 项 
的 系数 ,其 中 表示 概念 A LB 相对 于 本 体 树 O 父 概 念 的 相似 度 的 系数 ,v 是 
概念 A LB 相对 于 本 体 树 O 子 概念 的 相似 度 的 系数 ,9 是 参数 约束 满足 的 系 
数 ,如 果 参 数 很 多 ,9 的 值 就 相对 大 一 些 , 三 个 参数 的 和 为 1, 即 wx 十 v 十 gp 一 1。 

在 上 述 公 式 中 0 二 Sim(A,B,0) 二 1, 当 A 三 B 时 ,Sim(A,B,0)=1， 
当 完 全 不 相关 时 ,或 者 没有 共有 的 父 概念 和 子 概念 以 及 共同 的 参数 时 ， 
SimCA.B.O) —0, 
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9.3 基于 知识 发 现 的 案例 推理 应 用 模型 


人 们 为 了 解决 一 个 问题 ,常常 先 从 记忆 的 知识 库 中 寻找 所 有 与 新 问题 
相关 的 经 验 和 知识 ,然后 把 其 中 相关 程度 高 的 部 分 整合 运用 到 新 问题 的 求 
解 过 程 中 ,这 就 是 基于 案例 推理 (case-based reasoning. CBR) 过 程 的 求解 原 
理 。 随 着 人 们 对 CBR 研究 和 应 用 的 逐渐 深入 ,使 得 CBR 的 应 用 范围 和 领域 
不 断 扩大 。 先 后 在 通用 问题 求解 、 法 律 案例 、 医 药 医疗 、 天 气 预 报 、 机 器 故障 
诊断 及 企业 咨询 决策 等 方面 获得 应 用 ,在 网 络 和 电子 商务 方面 的 应 用 也 在 
不 断 展 开 。 

案例 推理 的 核心 是 案例 匹配 ,对 案例 的 检索 最 终 将 转化 为 案例 中 属性 
概念 集 的 检索 。 为 了 实现 案例 的 语义 检索 和 检索 结果 案例 的 相关 性 排序 
首先 要 解决 案例 的 特征 属性 之 间 的 关系 表示 和 存储 的 问题 。 本 文 提出 的 案 
例 推理 模型 中 采用 本 体 技术 构建 知识 库 , 并 通过 本 体 推理 实现 案例 检索 的 
语义 推理 。 

案例 检索 的 质量 直接 关系 到 案例 推理 的 质量 ,案例 检索 中 最 重要 的 是 
案例 间 的 相似 度 计 算 ,我 们 将 集 对 分 析 理 论 引 入 案例 的 相似 度 计算 中 ,建立 
了 基于 集 对 分 析 的 案例 检索 模型 9 。 


9.3.1 案例 相似 度 计 算 


集 对 分 析 的 重要 工具 是 联系 数 ,而 联系 数 的 确定 与 集 对 间 的 同一 性 、 差 
异性 及 相反 性 有 关 , 比 对 集 对 分 析 , 定 义 了 与 案例 有 关 的 集 对 联系 度 , 案 例 
集 对 及 其 联系 数 。 

在 进行 案例 检索 时 ,对 案例 间 的 相似 性 度量 可 以 归结 到 对 案例 属性 的 
相似 性 度量 ,案例 库 中 往往 存 有 大 量 的 案例 ,案例 属性 类 型 更 是 种 类 繁多 ， 
因为 人 为 因素 ,有 些 案例 属性 的 数据 可 能 被 遗漏 ,不 同 的 属性 类 型 不 同人 的 
操作 可 能 造成 属性 的 不 确定 性 、 模 糊 性 ,而 集 对 分 析 可 以 有 效 地 处 理 不 确定 
性 系统 ,本 部 分 利用 集 对 分 来 处 理 案例 系统 间 不 确定 性 。 
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为 了 将 集 对 分 析 引 入 案例 推理 系统 中 ,结合 案例 检索 的 特点 和 集 对 分 
析 的 主要 思想 ,给 出 以 下 定义 : 

定义 9-1 集 对 联系 度 : 在 问题 W 的 背景 下 探讨 集 对 H 的 性 质 进行 ， 
假设 提取 出 N 个 特性 ,其 中 在 S 个 性 质 上 具有 同一 性 ,在 P 个 特性 上 相反 ， 
在 其 余 的 = N-S-P 个 特性 上 既 不 对 立 , 又 不 同一 , 即 其 性 质 不 确定 , 则 称 
比值 : 

S/N 为 集 对 同一 度 ; 

F/N 为 集 对 差异 度 ; 

P/N 为 集 对 相反 度 ， 


式 子 uCu)  S-- Ei ri 称 为 集 对 H 的 联系 度 ， 


i 为 差异 度 标记 符号 ,根据 不 同 的 情况 在 [一 1,1] 之 间 取 值 ; j 是 对 立 度 

标记 符号 ,规定 j 三 一 1, 为 表示 方便 , 式 子 可 简写 为 : 
u =a+bi+cj (9-1) 

由 以 上 定义 可 以 看 出 ,a,b,c 三 个 数 满足 a 十 b 十 c= 二 1。 

定义 9-2 案例 集 对 : 问题 案例 q 和 案例 库 中 的 每 一 个 案例 p 之 间 存 在 
一 定 的 映射 关系 ,这 种 映射 关系 将 其 构成 案例 集 对 。 并 且 用 式 子 (q,p) 来 表 
示 问 题 案例 q 与 案例 库 中 某 一 案例 p 构成 的 案例 集 对 。 

定义 9-3 案例 集 对 的 属性 集 对 : 问题 案例 q 与 某 一 案例 p 关于 同一 属 
性 的 属性 值 构 成 案例 集 对 的 属性 集 对 。 

例如 ,假设 案例 集 对 (q,p) 与 n 个 属性 有 关 , 分 别 为 :zi ens tns ,案例 
q 与 案例 p 关于 这 n 个 属性 的 属性 值 分 别 为 za yze ttt emu neue tte 
Lp S Dl] Cr eg s (zayzz)…(zoyzam) 均 为 案例 集 对 (q,p) 的 属性 集 对 。 

定义 9-4 属性 的 联系 数 : 案例 集 对 (q,p) 的 属性 集 对 间 的 联系 度 表达 
式 称 为 属性 的 联系 数 。 

例如 ,用 表达 式 u 5a tbi toji 表示 案例 集 对 (q,p) 关 于 第 /个 属性 
的 联系 数 , 因 为 属性 值 只 有 一 个 ,所 以 表达 式 只 有 一 项 ,例如 两 个 案例 在 第 / 
个 属性 上 具有 同一 性 ,那么 联系 数 记 为 : u=a 且 al 二 1, 若 具有 差异 性 则 记 
H: ubi, 且 b1==1。 
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这 样 ,在 计算 案例 属性 联系 数 时 ,对 于 有 属性 值 缺 失 的 情况 ,根据 集 对 
分 析 理 论 ,认为 两 者 具有 差异 性 , 即 性 质 不 确定 ,有 效 处 理 了 推理 中 不 确定 
性 信息 问题 。 

在 本 文 实证 研究 的 中 医 喘 证 案例 中 ,从 案例 库 中 获取 案例 的 属性 特征 ， 
假设 与 个 属性 有 关 , 分 别 为 :zi ,xs，… ,x, ,然后 把 问题 案例 q 与 案例 库 中 
每 一 个 案例 p 的 个 属性 分 别 分 析 比 较 , 确 定案 例 集 对 (q,p) 的 每 一 个 属性 
集 对 的 联系 数 : 

u —acbüctan. 4€[-14]. j 2—1421,2,-,2 (9-2) 

其 中 ,a, 表示 问题 案例 q 与 某 案例 p 关于 第 ! 个 属性 的 同一 度 ; 0, 表示 
它们 之 间 的 差异 度 ; c, 表示 它们 之 间 的 相反 度 , 且 a 十 bi 十 c= 二 1, 那 么 问题 
案例 q 与 案例 库 中 某 一 案例 p 间 关 于 n 个 属性 集 对 的 联系 数 分 别 为 : ui， 
Ua ttt ,tn， 这 是 计算 两 个 案例 间 相 似 程度 时 非常 重要 的 一 部 分 。 

假设 在 案例 集 对 (q,p) ,zi sane t en, 是 选取 的 重要 概念 的 属性 ,它们 的 
重要 度 分 别 为 w, es teo, ， 则 结合 (9-1) 和 (9-2) 式 ,得 到 问题 案例 q 与 某 
案例 p 之 间 的 案例 相似 度 , 记 为 : 


Sim(p,q) = Saw, T Sow 十 Daw 
1-1 i=l l=1 


— A-FBi- Cj 
i € [-1,1]] j 2—1, 12 ,,2«.n (9-3) 


其 中 A = Xavi. B : rbi. = ET 

给 定 合适 的 i 值 ,可 以 得 出 问题 案例 q 与 某 案 例 p 的 相似 度 值 ,按照 相 
似 度 值 顺序 存 和 目标 案例 库 , 计 算 结 果 大 于 设 定 阔 值 的 案例 即 为 我 们 要 找 
的 目标 案例 。 在 有 些 案 例 中 ,特别 是 医学 案例 ,由 于 古 医 案 描 述 的 模糊 性 ， 
人 为 的 理解 差异 大 大 影响 了 数据 的 确定 性 ,因此 需要 考虑 相似 度 的 主观 性 
认识 ,一 般 原则 是 : 选取 的 案例 应 满足 ,在 两 案例 的 联系 度 式 子 中 ,同一 度 A 
尽 可 能 大 ,对 立 度 C 和 差异 度 B 尽 可 能 的 小 。 

除了 案例 相似 度 计算 方法 ,案例 的 表示 方法 、 存 储 方式 以 及 属性 重要 度 
的 选取 对 案例 的 检索 质量 都 有 影响 。 
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通常 计算 联系 度 时 通过 加 权 平均 的 方法 尽量 减少 权 系数 的 影响 ,但 仍 
不 能 去 除 人 为 定制 权 系数 的 弊端 ,为 了 减少 人 为 偏好 ,本 文 将 案例 属性 在 本 
体 知 识 库 中 的 层次 作为 体现 属性 重要 度 的 一 个 参考 ,层次 高 的 属性 重要 度 
比 层 次 低 的 属性 重要 度 要 高 。 


9.3.2 案例 匹配 的 语义 检索 


利用 本 体 概 念 间 的 关系 进行 语义 推理 ,实现 对 关键 字 的 语义 扩展 查询 
检索 。 查 询 扩展 主要 是 针对 关键 词 的 语义 信息 进行 扩展 ,主要 包括 关键 词 
语义 间 的 包含 传递 等 关系 ,图 9-8 展示 了 通过 本 体 推理 实现 语义 检索 的 案 
例 匹 配 过 程 。 推 理 规则 选择 SPARQL 本 体 查 询 语言 ,根据 中 医 跨 证 学 科 的 
概念 特征 对 本 体 推理 机 定义 了 如 下 的 规则 ; 


(1) Rulel: (?x has symptom ?y), (?x subclass of ?z) — (?z has 


symptom ?y) 
AULA SEDE x 具有 症状 y, 某 类 型 喘 x 是 某 类 型 喘 z 的 子 类 ,那么 某 
用 户 


用 户 请 求 


案例 检索 


有 
提供 解决 方案 本 体 推理 
! 
查询 词 扩展 
L 


图 9-8 基于 语义 检索 的 案例 匹配 过 程 
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类 型 嘴 z 具有 症状 y: 
(2) Rule2(?x cause ?y) (?x subattribute of ?z) (?x cause ?y) 
如 果 x 导致 某 类 型 跨 y,x ERRA a z 的 一 个 属性 ,那么 x 可 导致 z; 
(3) Rule3(?x cause ?y). (?z subclass of ?x)—>(?z cause ?y) 
如 果 因 素 x 可 以 导致 某 类 型 喘 y 的 发 生 , 因 素 z 是 因素 x 的 子 类 ,那么 
因素 z 也 可 导致 某 类 型 喘 y 的 发 生 。 
推理 核心 代码 : 


OntModel model = ModelFactory. createOntologyModel ( Ont-ModelSpec. OWL_ 
MEM, null ) ; 

model. read( new FileInputStream( "D:\\ontology\\information. owl") ，"") ; 

Model base — maker. createModel ( " model") ; 

// 创 建 一 个 默认 模型 model 

OntModelSpecspec = new OntModelSpec( OntModelSpec. OWL MEM) ; 

OntModel newmodel — ModelFactory. createOntologyModel( spec, base) ; 

// 定 义 推理 规则 

String caus rule =" Rulel:( ?x has symptom ?y), (?x subclass of ?z)—>(?z has 
symptom ?y)" +" Rule2(?x cause ?y), (?x subattribute of ?z)-* (?x cause ?y)" " 
+" Rule3(?x cause ?y), (?z subclass of ?x)-* (?z cause ?y) ; 

// 查 询 语 名 

String queryString =" PREFIX Info: < http://www. owl-onto-logies. com/ 
Information. ow | & > " +" SELECT ? case ? subject " + "WHERE ( ? case 
Info:cause? 


subject ) " ; 

// 根 据 自 定义 规则 创建 推理 机 

Reasoner cause_reasoner = new GenericRu-leReasoner( Rule. parseRules( caus_ 
rule) ) ; 

// 绑 定 实例 文件 与 推理 机 


InfModel inf — ModelFactory. createInf-Model( caus reasoner, newmodel) ; 
Query query — QueryFactory . create( queryString) ; 

// 执 行 查询 

QueryExecution qe — QueryExecutionFactory.create( query, inf) ; 
ResultSet results — qe. execSelect ( ) ; 


9.3.3 案例 推理 过 程 


图 9-9 展示 了 案例 推理 中 检索 词 扩展 、 构 造 属性 集 对 、 属 性 联系 度 计算 、 
案例 相似 度 计 算 的 处 理 过 程 ,其 所 对 应 的 检索 步骤 为 : 系统 根据 用 户 输入 问 


268 本 体 建 模 与 语义 Web 知识 发 现 


题 案例 的 描述 信息 ,通过 本 体 知识 库 进行 近 义 或 同义词 的 扩展 ,抽取 出 与 问 
题 案例 有 关 的 属性 集合 ,从 而 构造 案例 集 对 的 属性 集 对 ,应 用 公式 (9-3) 计 算 
案例 间 的 相似 程度 。 


EPO 


问题 案例 信息 


1 
本 体 知 识 库 


语义 扩展 


Y 


形成 属性 


图 9-9 案例 检索 模型 的 系统 原理 图 


第 一 步 : 用 户 输入 问题 案例 q 的 描述 信息 并 在 问题 背景 下 抽取 关键 词 。 

第 二 步 : 通过 本 体 知识 库 进 行 近 义 或 同义词 的 扩展 ,得 出 问题 案例 有 关 
的 属性 集合 ,从 而 构造 案例 集 对 的 属性 集 对 。 

第 三 步 : 对 案例 库 中 的 每 一 个 案例 p 应 用 公式 (9-2) 和 公式 (9-3) 计 算 案 
例 集 对 (q,p) 的 相似 度 , 如 果 相 似 度 大 于 设 定 阔 值 ,将 其 存 人 目标 案例 库 。 

第 四 步 : 如 果 目 标 案 例 库 为 空 ,可 以 应 用 本 体 推 理 进一步 扩展 问题 背景 
的 属性 集合 , 转 第 二 步 ; 否则 转 第 五 步 。 

第 五 步 : 按照 得 出 的 相似 度 值 从 大 到 小 的 原则 重新 将 目标 案例 库 排 序 。 
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9.3.4 中 医 诊疗 的 应 用 


通过 人 工 收集 和 整理 ( 丁 甘 人 医 案 . 伤寒 案 》《 中 华 医 典 ) 中 所 收录 的 
名 医 案 中 涉及 到 的 喘 证 案例 ,选取 600 余 例 喘 证 医 案 为 研究 对 象 ,在 领域 专 
家 的 参与 下 并 参考 中 医学 相关 标准 ,在 排除 概念 的 元 余 性 、 歧 义 性 及 保证 概 
念 术 语 正确 的 前 提 下 ,选择 * 喘 主 证 ”“ 喘 息 ”“ 喘 道 "“ 喘 鸣 ?“ 咳 跨 ? 及 “上 
气 ? 等 关键 词 作 为 研究 核心 概念 ,筛选 整理 医 案 , 最 终 确定 相关 属性 字段 十 
余 个 ,建立 了 较为 完善 的 中 医 跨 证 医 案 数据 库 , 如 图 9-10 所 示 , 将 此 作为 研 
究 对 象 的 形式 背景 。 


C D E F G 

1 | 纺 喘 轻 Ft OBER KR 

2 中 [iR 

sh p SETA 滑 数 

4 |2 ai 中 IE 

5 |3 E DL S | 细软 ， 滑 

6 |4 | 气短 、 喘 | 由 s 沉 实 

Ts 45. t E I | 沉 弱 

8 |6 中 TH E253 

9 |r m f 淡 E | 沉 数 

10 |8 m , O 2 | 学 数 

ijs hg [E . 3S. , ER " Fa 

12 |66 Wie E |i. Sum. „W5, 

13 |67 tiie DATA LDF, BuSBENPA. d 
14 |68 iiè m Hh. qux 

15 |69 lth ph. Dj8. feR. MENASA 沉 数 ， 指 纹 粗 i 
16 71 [ih E 壮 热 ， 口 渴 ， 小 便 短 赤 ， 纳 呆 mil. nj pgs. Ho 

ir] mi lE ]um AR. DB. o EE SEE haim. 9. i 
18 |75 [h | 疲 清 稿 R (edo. ea. O3 [ED (us 

19 |76 x h | 小 清 稳 ”| 纳 呆 ， 小 便 清 长 Ege, HB! 人 

20 |73 | 气短 |h Imi. EXE. Bur. 盗汗 ， BAR | 虚数 

21 [81 重 | 壮 热 ETE |Z. i EX: 
22 |84 iiaa IRE — IBrp. mM. 口 渴 


图 9-10” 跨 症 医 案 数据 库 
1. 本 体 构 建 


在 中 医 专家 的 参与 下 ,对 抽取 的 重要 概念 自 顶 至 下 定义 出 基本 的 类 和 
层次 关系 ,并 用 建 模 工具 Protégé4. 1. 0 建立 中 医 跨 证 领域 本 体 类 关系 的 初 
始 模 型 。 其 中 ,定义 的 类 与 本 体 结构 中 的 类 一 致 ,对 象 与 本 体 结构 中 的 实例 
一 致 ,例如 ,外 感 型 器 是 实 喘 的 子 类 ,而 实 喘 又 是 跨 证 的 子 类 ,用 本 体 语 言 
述 这 种 关系 如 下 : 
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—owl: Class rdf: ID=" /| 8l ii; " > 
=rdfs:subClassOf> 

—owl:Class rdf: ID=" Sc ma" / — 
=/rdfs:subClassOf> 
</owl:Class> 

<owl:Class rdf: about = "Sz" > 
<rdfs : subClassOf> 

<owl:Class rdf: about= "lg iE" / — 
 / rdfs : subClassOf > 

—/owl:Class > 


定义 各 类 之 间 的 关系 ,每 一 种 关系 都 是 概念 与 概念 间 的 一 种 映射 ,可 以 
看 成 是 二 元 组 或 多 元 组 函数 。 函 数 定义 域 和 值 域 的 取 值 就 是 喘 证 领域 内 定 
义 的 类 和 子 类 的 对 象 ,每 种 关系 相对 应 的 ObjectProperty 属性 的 domain F 
属性 可 以 用 来 设置 函数 的 定义 域 ,关系 对 应 的 ObjectProperty 属性 的 rang 
子 属性 可 以 用 来 设置 函数 的 值 域 ,如 此 可 以 使 本 体 体 系 中 各 类 的 关联 更 加 
简单 。 以 下 显示 的 是 ObjectProperty 属性 * 痰 象 " 以 及 它 的 特殊 性 质 ,其 中 
“ 痰 象 "的 定义 域 是 案例 , 值 域 是 由 * 痰 白 "“ 痰 黄 " 和 "* 痰 清 稀 ?组 成 的 并 集 构 
成 ,可 以 看 出 值 域 的 并 集 构 成 了 值 域 , 而 且 值 域 还 有 传递 属性 。 

(owl; TransitiveProperty-) 


—owl: TransitiveProperty rdfí:about—" # 96$" 
二 rdfs: domain rdf: resource " & R ffl" / — 
—owl: inverseOf rdf: resource— " # HJ "/— 
<rdfs: range 

owl: Class 

— owl: unionOf rdf: parseType- "Collection" > 
—owl: Class rdf: about—" # JE F1" /7 

—owl: Class rdf: about—" # JE" /— 

—owl: Class rdf: about— " # XE ifi f " /— 
—/owl: unionOf- 

—/owl: Class 

二 /rdfs: range 

—rdf: type rdf: resource— http://www. w3. org/2002/07/owl # ObjectProperty/— 
—/owl: TransitiveProperty—- 
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建立 的 中 医 喘 证 本 体 片段 如 图 9-11 所 示 。 


图 9-11 中 医 跨 证 本 体 片段 


2. 数据 的 整理 和 相似 度 计 算 
表 9-2 所 示 数 据 为 从 案例 库 中 选取 的 12 个 比较 有 代表 性 的 案例 ,其 中 2 
个 作为 问题 案例 ,并 且 使 用 中 医 专 家 推荐 并 结合 本 体 结构 的 属性 权重 值 。 


表 9-2 中医 喘 证 案例 及 属性 权重 值 
LE Sk DX 


"3 DX 

i "* (颜色 ) -- CER) | (颜色 ) | (厚薄 ) Si 

1 Wig [s 痰 黄 状 热 一 Hi H 滑 数 

2 Tig 一 微 热 T 5n = 浮 数 

3 喘息 Hi 微 热 一 Hz 略 厚 EA 

4 气喘 无 EF Ti = 厚 浮 数 

5 气短 € = TEL HH zd 沉 弱 

6 Wig tik Ki 潮 热 TE = H 浮 紧 

7 DA% Mii 3E = Ti HH = 细 滑 

8 Wig fie KA = TRE HH H 细 滑 

9 微 跨 KA ER GES 5a 一 沉 实 

10 LI KA 微 热 T #A 薄 = 
问题 案例 1 | — mx K 状 热 = #A 薄 请 
问题 案例 2 | 气短 KA EE T» GAN 厚 浮 
属性 权重 0.4 0.15 0.05 0.1 0.05 0.1 0.15 
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为 了 验证 本 文 提出 的 案例 间 相 似 度 度量 方案 的 高 效 性 ,尤其 是 某 些 属 
性 的 信息 缺失 或 不 确定 情况 下 对 案例 间 相 似 度 度量 的 影响 ,分 别 对 问题 案 
例 1 和 问题 案例 2, 采 用 一 般 相 似 度 ( 海 明 距离 法 ) 计 算 和 基于 集 对 分 析 的 相 
似 度 计算 , 阔 值 设 定 为 = 王 0.8。 计 算 结 果 对 照 数据 见 表 9-3。 


3. 结果 分 析 


实验 结果 如 表 9-3 所 示 , 可 以 看 出 ,基于 集 对 分 析 的 相似 度 计算 方法 区 
分 度 更 好 ,对 于 问题 案例 1, 用 集 对 分 析 方法 计算 出 大 于 阔 值 — 0. 8 的 案例 
有 4 个 ,用 海 明 距 离 法 有 3 个 ,通过 观察 表 1 的 数据 上 且 结合 医 案 的 诊断 结果 ， 
发 现 案例 7 与 问题 案例 1 相 接近 ,说 明 本 文 计 算出 的 结果 更 接近 事实 。 且 用 
集 对 分 析 计 算 问 题 案 例 与 源 案 例 的 相似 度 值 比 与 源 案 例 9 的 值 大 ,但 是 用 海 
明 距 离 法 结果 却 相 反 , 可 能 是 案例 5 属性 缺失 较 多 的 原因 ,而 集 对 分 析 法 能 


有 效 的 处 理 这 些 不 确定 信息 。 
表 9-3 实验 结果 
源 案 例 问题 案例 1 问题 案例 2 
序号 集 对 分 析 海 明 距离 集 对 分 析 海 明 距离 
1 0.88 0.85 0. 25 0. 34 
2 0. 63 0. 59 0. 62 0.78 
3 0. 66 0. 64 0.7 0. 82 
4 0.52 0.48 0. 69 0.72 
5 0. 62 0.41 0. 46 0. 74 
6 0. 86 0.84 0. 68 0.58 
7 0. 84 0.76 0.6 0.70 
8 0.82 0.81 0.5 0.52 
9 0.51 0.52 0. 46 0.58 
10 0. 63 0.65 0. 42 0.44 


对 于 问题 案例 2, 用 集 对 分 析 法 计算 出 大 于 阔 值 的 案例 有 0 个 而 海 明 距 
离 法 有 1 个 ,通过 观察 表 9-2 的 数据 且 结 合 医 案 的 诊断 结果 ,很 明显 ,问题 案 
例 2 与 源 案例 属性 不 太 接近 ,如 果 以 海 明 距 离 法 检索 出 的 案例 作为 问题 案例 
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求解 的 依据 的 话 , 诊 断 可 能 会 缺乏 准确 性 。 由 此 我 们 可 以 总 结 出 相对 于 基 
于 距离 的 方法 ,本 文 对 案例 相似 度 的 计算 方法 效果 更 好 。 


9.4 基于 知识 库 的 知识 发 现 及 应 用 


基于 知识 库 的 知识 发 现 KDK (Knowledge Discovery in Knowledge 
base) ,目的 在 真实 的 大 型 知识 库 中 发 现 新 的 知识 。 这 种 发 现 过 程 借用 KDD 
的 语言 说 是 * 非 平凡 ”的 。 意 即 这 种 发 现 过 程 的 核心 将 是 归纳 ,而 演绎 将 作 
为 辅助 手段 ,该 过 程 不 同 于 传统 的 演绎 , 它 有 可 能 是 不 保 真 的 。 其 次 ,KDK 
能 够 发 现 深 层次 的 知识 。 具 体 而 言 就 是 在 已 有 关系 的 基础 上 进一步 发 现 其 
上 的 关系 ,从 逻辑 角度 上 说 就 是 发 现 谓词 间 的 关系 或 涵 词 间 的 关系 。 再 次 ， 
由 于 知识 本 身 所 可 能 具有 的 一 些 属性 ,如 不 确定 性 , 非 单 调 性 ,不 完全 性 等 ， 
KDK 过 程 的 进行 也 将 是 一 个 复杂 的 多 方法 多 途径 的 过 程 。 它 与 知识 库 的 
组 织 ,用 户 对 最 终 寻 求 的 知识 的 类 型 都 紧密 相关 ,采用 的 推理 手段 可 能 涉及 
很 多 不 同 的 逻辑 领域 。 最 后 ,KDK 发 现 的 知识 应 该 是 有 效 的 ,潜在 有 用 的 ， 
用 户 可 理解 的 。 这 与 KDD 的 要 求 相 同 。 

KDK 究 其 本 质 来 说 应 该 是 一 种 机 器 学 习 过 程 , 其 本 质 目的 是 获取 知 
识 ,学 习 源 是 知识 库 ,学 习 手段 是 用 归纳 结合 演绎 的 方法 ,其 最 终结 果 将 既 
能 够 发 现 事实 上 的 知识 ,也 能 发 现 关 系 上 的 知识 。KDK 要 依赖 于 基于 数据 
库 的 知识 发 现 KDD, 因 而 能 够 很 好 的 解决 KDD 的 应 用 领域 。 

KDK 的 潜在 应 用 是 十 分 广阔 的 ,已 经 远 远 超出 了 最 初 的 “货架 子 工 
程 "”。 从 工业 到 农业 ,从 天 文 到 地 理 ,从 预测 预报 到 决策 支持 ,KDK 都 发 挥 
着 越 来 越 重 要 的 作用 。 


1. 商业 方面 


“货架 子 工 程 ? 是 KDD 最 初 成 功 应 用 的 典范 。 也 正 是 因为 在 商业 方面 
的 成 功 应 用 不 断 刺 激 着 KDD 的 发 展 ,进而 拓展 到 越 来 越 广阔 的 应 用 领域 。 
如 今 商 业 ,特别 是 销售 业 和 服务 行业 , 随 着 大 数据 时 代 的 到 来 ,已 然 是 KDK 
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应 用 最 广泛 的 领域 之 一 。 主 要 应 用 于 销售 预测 .库存 需求 .零售 点 选择 、 价 
格 分 析 和 销售 模式 分 析 。 


2. 农业 方面 


农业 是 一 个 大 型 复杂 系统 ,中 国 农业 部 门 数 十 年 来 积累 了 大 量 的 关于 
土肥 气象 .病虫害 ,市场 信息 等 方面 的 数据 .实例 和 经 验 知识 。 但 基本 上 没 
有 得 到 充分 利用 。 如 果 将 这 些 知识 通过 本 体 构 建 知 识 库 , 不 仅 实现 知识 共 
享 , 还 可 以 从 中 发 现 许 多 有 价值 和 有 规律 的 隐 含 知识 。 如 通过 对 病虫害 数 
据 的 分 析 ,可 以 发 现 病虫害 的 影响 因素 .迁移 或 草 延 规律 等 ,从 而 遏制 灾害 
的 发 生 扩展 或 降低 灾害 损失 ,通过 对 国际 国内 市 场 信息 的 挖掘 来 指导 农业 
生产 规划 等 。 


3. 医学 生物 方面 


医疗 保健 行业 有 大 量 数据 需要 处 理 , 但 这 个 行业 的 数据 由 不 同 的 信息 
系统 管理 ,数据 组 织 性 差 ,而 且 类 型 复杂 。 如 医疗 诊断 数据 ,可 能 包括 文本 、 
数值 ,图 像 等 ,都 给 应 用 带 来 了 一 些 困难 ,统一 的 资源 描述 和 知识 表示 成 为 
应 用 的 瓶颈 。KDK 在 医药 方面 主要 用 于 医疗 诊断 分 析 、 药 物 成 分 一 效用 分 
析 、 新 药 研制 和 药物 生产 工艺 控制 优化 等 。 


4. 金融 保险 方面 


金融 事务 需要 收集 和 处 理 大 量 数据 ,对 这 些 数据 进行 分 析 , 发 现 其 数据 
模式 及 特征 。 然 后 可 能 发 现 某 个 客户 、 消 费 群体 或 组 织 的 金融 和 商业 兴趣 ， 
并 可 观察 金融 市 场 的 变化 趋势 。KDK 在 金融 领域 应 用 广泛 ,如 金融、 股票 
市 场 分 析 和 预测 ,账户 分 类 ,银行 担保 和 信用 评估 等 。 


5. 通信 、 媒 体 方面 


如 线路 故障 的 预测 、 收 视 率 的 影响 因素 、 网 站 入 侵 检测 、Web 信息 发 
现 等 。 


第 9 章 基于 本 体 知识 库 的 知识 发 现 275 


6. 国防 军事 方面 


如 军事 情报 资料 分 析 、 指 挥 自动 化 与 辅助 决策 .战争 风险 预测 、 武 器 攻 
击 效果 分 析 、` 地 理 数据 分 析 等 。 


7. 其 他 方面 


如 工业 生产 中 设备 故障 诊断 ,生产 工艺 优化 : 科学 研究 中 的 数据 处 理 与 
分 析 、 气 象 分 析 和 预报 等 。 

在 所 得 到 的 大 量 信息 中 ,包括 有 结构 化 的 数据 , 半 结 构 化 的 数据 (文本 
信息 等 ) 和 非 结 构 化 数据 (图 形 、 图 像 、 视 频 、 音 频 信息 等 );。 而 KDD 技术 只 
处 理 其 中 以 结构 化 的 数据 类 型 。 与 变化 不 定 的 数据 比较 ,知识 是 相对 稳定 
的 .是 从 较 高 的 层次 看 数据 .是 数据 的 抽象 表示 ,其 表达 的 内 涵 要 远 远大 于 
数据 信息 。 因 此 ,研究 知识 中 内 在 的 联系 ,将 成 为 知识 发 现 领域 下 一 步 的 研 
究 目标 。 正 像 KDD 技术 的 产生 是 由 于 数据 爆炸 而 知识 缺乏 一 样 , 随 着 知识 
信息 的 不 断 增加 ,知识 爆炸 能 提供 给 决策 者 有 效 的 决策 信息 严重 缺乏 的 情 
况 日 益 引 起 人 们 的 注意 ,KDK 将 成 为 知识 发 现 的 研究 热点 和 应 用 技术 。 

国际 上 目前 针对 语义 推理 的 热点 研究 领域 主要 涵盖 了 以 下 几 个 方面 ， 

(1) 理论 方面 

由 于 OWL 的 逻辑 基础 是 描述 逻辑 ,因此 扩展 描述 逻辑 表达 能 力 并 开发 
对 应 的 正确 有 效 的 推理 算法 成 为 了 人 们 研究 的 热点 。 

(2) 功能 方面 

支持 规则 推理 ,如 支持 SWRL 便 是 典型 的 一 例 , 这 样 的 系统 有 Bossam; 
支持 多 版 本 本 体 查询 与 推理 ,典型 的 项 目 有 MORE; 支持 不 一 致 本 体 的 推 
理 , 典 型 代表 有 PION; 支持 分 布 式 本 体 的 推理 , 较 新 的 项 目 有 DRAGO; 另 
外 优化 用 户 界 面 以 及 为 开发 用 户 提供 更 为 丰富 的 程序 开发 接口 等 都 是 本 体 
推理 机 发 展 的 最 新 趋势 。 

(3) 应 用 方面 

进一步 为 语义 WEB 七 层 模型 中 的 证 据 层 提供 解释 服务 ,这样 的 参考 应 
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用 系统 有 美国 斯 坦 福 大 学 的 wineAgent SLE ; 进一步 结合 本 体 编辑 器 ,为 用 
户 提供 Debug 服务 ; 另外 把 本 体 推 理 机 更 好 地 集成 到 大 型 本 体 服务 器 中 都 
是 本 体 推 理 机 应 用 的 最 新 趋势 。 
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